ZKIZ Archives


i代言 | 前高德產品副總裁馬斌斌:夢想有一天,用嘴開車環遊世界

來源: http://newshtml.iheima.com/2015/0701/150116.html

黑馬說:他曾是高德地圖的產品副總裁,明白駕車場景下導航的各種痛點,深知只有強大的語音交互才能完美解決,卻無奈種種原因產品沒能繼續。一個偶然的機會,他結識了專於人機對話的思必馳創始人,改造行車體驗的夢想就此打開。創立carrobot,實現用嘴開車,讓駕駛體驗變得超乎想象,這正是馬斌斌在做的。而他的“野心”還遠不止於此。

文 | i代言



我最早是在高德這邊做高德地圖的產品副總裁,在真正開發這個產品(高德地圖)過程中,就發現在駕車場景下,不管是手機地圖來做導航,還是用車機做導航,都有很多的痛點。比如說來電話了,要去接電話,來微信了,還要抽空拿起來看微信,這就給駕車帶來很多的風險。有一個統計,交通事故百分之三十八,就是因為不正確的駕駛行為導致的。於是,那時我們就在想,有什麽更好的辦法,來解決這個問題。

還有一些情況,比如說,經過一些複雜路口的時候,這種路口本來正常是這種十字路口,但是有些路它右前方有兩條路,導航播報不見得能夠很準確讓人知道,這兩條路到底該是哪一個,多少角度,導航只會說是朝右前方行駛,所以聽的時候你就會很糾結,我聽的右前方,可右前方到底是哪條路。這時候沒辦法,只能拿起這個地圖來看一眼,或者說就是自己猜著瞎走,這一走最後發現走錯了,導航提示已偏離路線。有沒有有什麽辦法,使我們在開車的時候,就可以順便的、方便的看到這個信息,這是第一點。

還有些痛點,比如我們剛開始規劃條路線,車剛啟動,啟動之後剛走了沒幾米,導航就說您已偏離路線。這時候你就很抓狂,我怎麽剛啟動就說我偏離路線了。為什麽會這樣,那是因為手機它不知道,你的車頭的朝向,是否跟我規劃的路線是一致的,所以它只能等你走出去幾米,或者十米,它通過GPS的定位的變化,才發現已經走偏,提示你你應該怎麽重新去調整路線。這種讓人抓狂的事,在實際的開車過程中能不能解決掉呢?

還有一個,開車看微信,估計現在很多人都有這種習慣,開車時沒辦法,只能說,到紅燈的時候趕快看一眼,結果呢,正在看的時候,後面車開始滴滴滴催你了,哦,綠燈到了,趕快放下來。手忙腳亂,非常不順暢。

於是我們就在想,能不能用語言方式來控制。我跟我當時在高德的地圖團隊說,能不能說當我們查一個地點做導航時,整個過程用語音的方式來控制,比如幫我找一下附近的加油站。“哎,這里加油站有幾個”?然後(導航)直接告訴我,我就說去第幾個,然後就可以直接給我去做這個導航的動作。

高德做地圖積累很深,但是在語音這方面沒有這個積累,而且中間它是有個上下文的關聯,它不是一次的搜索,它需要這種說,一些基於智能技術的這種,一些積累才可以,發現我們做了幾個月,做不出我想要的效果,所以就先放棄了。

機緣巧合,在一次跟朋友的聚會上,算是行業里邊的聚會,認識到老高,高始興,他是思必馳的創始人,他說他們現在的技術就是做人機對話,也就是說你可以用一問一答的方式來幫你去篩選結果,整個過程中完全不用手。太好了,這正是我想要的,這就是我後來做這個產品的一個重要動機。

之後,我也去深度地了解了他們的技術,發現確實做得很好,然後他們人機對話就是說,我想打一個電話:“哎,打電話給小強。”可能通訊錄里邊有兩個小強,它會問你是胡小強還是張小強,我說是胡小強,胡小強正好有兩個電話號碼,它能幫你識別出來,說你是要打給他的移動,還是聯通的號碼,我會說移動還是聯通,我也可以說是第一個還是第二個,我還可以說一三五開頭的,或者四八八五結尾的,它都能支持,這正是我想要的一個完美的語音交互方式。所以我們就決定一起做這麽一個產品出來。

在決定這個產品這種形態的時候,我們做了很多一些調查。我們去看到說目前在這種車的場景里邊,大家如何做這種產品的形態。大家都在用的是叫做智能車機,就是車機是以前是在這個中控臺的監視器的屏幕位置,現在變成了比如裝安卓系統,可以裝各種應用,包括說高德地圖還是百度地圖,包括微信也都能裝進去,但是有一個問題是,我們看這個車機的時候,盡管它做了改良,但是你視線還是要去偏離路的,而且是嚴重的偏離,因為它的位置是在儀表盤的下方,所以當你眼睛移到這里看的時候,你還是會忽略前方的路況,所以它不是一個安全的,信息的交互的模式。

還有後來又興起了這種後視鏡。後視鏡指的是那個,前擋風玻璃中間偏上的這個位置的小後視鏡,就是在車箱內部的這個,這個屏幕上面不光是用來看後方車的車距車速,還用來做一個信息的展現,等於把一個鏡子面,變成了一個顯示屏,它相對要比看車機這個位置,安全了好多,但是它也有它的問題,因為這個後視鏡,本來是用來做看後方的車輛的車距,這麽一個小屏幕,你還拿了一半左右的空間來做信息的展現,那我看到其他後車的信息,就會受到幹擾,它其實是一個安全隱患,按交通法來說,可能是不合規格的一種改裝,是很危險的。

我們又看到一種形式,它是日本的先鋒,它做了一個這樣的HUD屏,這個屏呢它是利用了這個遮陽板的位置,用一個卡子卡在這個遮陽板上,用一個狹長的透明屏來做這個展現,而且它展現的原理很有意思,它是用鏡面成像的原理,圖像不在這個屏幕本身,而是延伸到了車窗的外邊。就像當你看鏡子的時候,你不是在鏡子表面,而是在鏡子的里面,是一個對稱的位置。

這個技術其實最早是用在戰鬥機,比如說那種戰鬥機飛行員,戴著一個頭盔,他在看這個前方的天空的時候,他同時還需要去看一些飛行數據,飛行數據它是打在頭盔的,這個玻璃屏上面。

現在汽車遮陽板加了這個東西之後,就沒法用了,那麽陽光刺眼的時候怎麽辦?好了,只能說你再加一個外設的一個遮陽板卡在外邊,但你一旦卡在最外邊的時候,又把那個透明屏給擋住了,你擋住屏之後,這個屏變得不透明,又變成了說跟看車機,和看這個後視鏡同樣的問題,它是不安全的。

後來我們又看到另外一個產品形態是Navdy,就是美國Navdy,它在去年的時候,推出這麽一個產品視頻概念,就是它是在放了一個HUD屏,跟我們這個產品是很像的,就是它這個產品是放在這個方向盤的正前方的儀表臺上,看路的時候,我們這個視線的交點,大概是這樣的,大概是這麽一個角度,而且是前方稍微偏下看路的時候,它在你的視線角度上,可以用余光可以很清楚的看到這個信息,而且它用的也是HUD這種,鏡面成像的這種原理,所以說那個信息的展現,不是在屏幕上,而是延伸到了車窗的外邊,看路的時候,可以順便的清晰地看到信息。

所以回顧到用戶開車的時候痛點,痛點是什麽,就是我必須要雙手抓方向盤,眼睛看前方路面。如何讓我在做信息交流的時候,不去破壞我這的主要操作,那我們想到的最好的模式還是在語音這一塊,就是用耳朵聽和用嘴巴來說,這個事情聽起來很簡單,其實做起來是很難的。

不知道大家有沒有看過在今年的春節的時候,有一個糾正哥的視頻,如果說語音識別做到這樣技術,做到這樣一個程度,那幾乎是不可用的。國外是這樣的,安吉星它背後用的語音的提供方,應該是Nuance,而Nuance又是iphone,就是Siri語音技術的提供商,我們看到說其實國外的這些廠家,做成這樣,那麽國內做得怎麽樣呢?

其實國內做的也不好。思必馳,因為我們是一個深度戰略合作夥伴,而且我們是一種合夥人的關系,創始人關系,那講了這個最基礎的問題,語音識別率,語音識別率我們也對比了,國內的幾家語音的服務商,包括像百度語音輸入法,還有像科大訊飛,我們會發現在這種噪音環境下,他們的識別率都很差,尤其是百度就更差了。大家知道百度做了一個CarLife,車載場景下的一個人機交互系統,但是以它這樣的語音識別率,CarLife幾乎是一個不可用的產品。科大訊飛比它好一點,但是比起思必馳的識別的準確率,還是要差,這是一個基礎的問題,這個解決不了,就談不到說真正的語音的交互。識別都做不好嘛。

思必馳的創始人之一俞凱,是劍橋的語音博士,包括現在Siri,這邊的語音的負責人,跟他們當年都是同學這樣一個關系,而且他之前還是美國國防部語音這塊的專家,他是上海交大語音實驗室的負責人,就說這邊的語音的技術積累,是很深厚的。專註於做技術,不擅長去表達去做傳播,但是技術做得真的很好。一個就是體現的說他們專註於說,要做一個通用的場景的語音識別,這個可能說大家都差不多,但是做這種車載環境的呢?我們看到車載里面,其實針對於語音是一個,更強的剛需,所以思必馳它當時,基於這個車載環境,做了深度的定制研發,怎麽做呢,我們要想說在噪音環境里邊去,還能聽清楚人聲,其實要去分析人聲的波長、頻率這些特征,還有噪音比如說音樂聲、麥克風播出的聲音,跟人說話的聲音,它這種頻率是不一致的;還有一種風噪路噪的聲音,它這種特征也不一致,當你用大量的數據的語料,把這種特征分析出來之後,就能把他跟人聲分離出來,這時候為什麽我能在噪音環境下,我們做得更好,因為我們把人聲,可以從噪音里邊分離出來,聽到的就是準確的。

除了這個語音識別的問題,下一個問題是怎麽能去做智能的語義識別,聽清楚了是第一點,但聽懂之後能不能給它一個更好的反饋,這就是一個更大的挑戰,而這邊正好也是我們,已經積累了一個很好的技術,人機對話的技術。我們比如說常規我們想到的語音,就是我們發一個指令說,比如說這個電視機打開關閉,這個很容易,但是如果我說給我找一個附近加油站,加油站有多個的時候你要去哪個,比如你要去中石油的還是中石化的,這時候能不能用語音方式直接來問他,說你要去附近的中石油,還是中石化的加油站,我說去中石油的,那這樣的話,下一步說是否導航去那里,我說導航開始,這種過程能不能說完全語音的方式,因為我們提供的這個產品,大家也看到沒有一個鍵盤,也沒有一個觸摸屏,只有一個顯示屏,所以它的操控全語音操控,能不能做到,這是我們在突破的點。

在做的過程中,其實技術上能做到只是第一點,能不能讓用戶有一個更好的體驗,又是一個好大的挑戰,現在這個產品做出來之後,我們用戶體驗下來之後,感覺真的是很酷,而且它在開車過程中,有幾個挺好的功能,比如說你開車是用全語音方式設置導航地點,設完之後開始導航,導航過程中來電話的時候,你再也不用擔心說這個導航界面,被這個來電顯示給蓋住,而且你也不用拿起手機接電話,它直接說一句誰誰誰電話接聽還是拒絕,你說接聽,這時候就通過藍牙的方式,就通過電話的信息用喇叭放出來,當然你也可以帶耳機聽,都可以,還有你說掛斷,就可以把它掛掉,繼續開車。

正在開車的時候又來了個誰誰的微信,播報還是忽略,你說播報,它就把微信內容給你讀出來,你這時候完全可以不看屏幕,你就可以知道。你看著車看著路,它語音播報誰誰誰說今天下午我們一起去吃飯,地點定在什麽地方好不好,然後你這時候可以說回複,然後你說好,我們就定在那個地點,我在下午7點半準時到,我們的語音識別率很好,我們語音說完之後,能轉成文字發出去,而且準確率非常的高,幾乎是一個字不錯的能夠把它發出去。

目前看它也許只是一個智能汽車,跟非智能汽車過度期間的一個過度產品,但是做好這個人車交互平臺之後,我希望這個平臺甚至不是通過這樣一個合作的方式去體驗,而是把這個系統直接裝在車里邊,然後在開車的時候,直接可以無縫的去使用,我們這麽好的這種語音交互的能力,去做車的操控,甚至到某一天,我們通過資本運作,跟車廠做戰略整合,我們去做可以語音操控的自動駕駛,這是我的夢想,在我的朋友圈子里邊有一條,很多我的朋友都看過,我寫的是說如果哪一天,真的實現自動駕駛了,我開輛房車去周遊世界,現在如果說你要開一輛房車,去周遊世界,那很痛苦,因為開車時間太長的時候,真的會很疲憊很累,那不是愉悅的體驗了,但到能夠用嘴去開車的時候,我只要說我要去哪里,它就會帶到那個地點,期間我可以睡覺,我可以看書,我可以看東西,或者欣賞沿途的風景,我相信這是一種人生,可以更加完美的一種人生。\版權聲明:本文作者i代言,文章為原創,i黑馬版權所有,如需轉載請聯系zzyyanan授權。未經授權,轉載必究。

 

\


ZKIZ Archives @ 2019