📖 ZKIZ Archives


度秘背後,是百度O2O和人工智能的兩大野心

來源: http://www.iheima.com/news/2015/0909/151881.shtml

 

20150908135238903890

就在蘋果秋季發布會的前一天,近20家中國科技企業在北京召開發布會,其中最受關註的是一年一度的“百度世界”。百度世界大會對標蘋果的WWDC或Google I/O,向開發者、合作夥伴和用戶傳遞百度在技術等方面的研究成果,因此每一年都會展出一些黑科技,2014年令外界印象最深刻的是“筷搜”,由百度CEO李彥宏親自發布。今年李彥宏推出了名為“度秘”的秘書式機器人,並演示了一個驚艷的DEMO(DEMO看看就好,最新版手機百度已上線該功能)。這個度秘跟筷搜一樣具有科技含量,不過相對於處於概念性階段的筷搜而言,更具實用價值。

語音助手大都只是玩具

2011年蘋果隨著iPhone 4S一起推出Siri,將語音助手帶入大眾視野。隨後Google Now、微軟Cortana以及中國的百度語音助手、搜狗語音助手、智能360、蟲洞、訊飛靈犀語音助手陸續面世。由於智能手機天然具備“聽”和“說”的硬件基礎,再加上移動互聯網帶來的語音場景,人們都認為語音助手是時候迎來爆發了。

這些年語音技術不斷提升。語音識別、語義理解、語音合成和聲紋識別幾個領域的進展可謂突飛猛進。不過,中國語音巨頭科大訊飛更多將技術應用到教育等行業應用中。而想要複制Siri的中國玩家們都沒能成為殺手級產品——實際上,Siri、Google Now以及微軟Cortana幾個老牌玩家也表現平平。

為什麽會這樣?如你所見,智能手機的語音助手在過去很大程度只是“玩具”。人們許多時候都在調戲Siri,它的笨拙甚至會激怒用戶惡語相向——不信去百度檢索下東北司機怒罵車載語音助手的視頻。識別率不夠高、對噪音環境支持很弱、識別速度不夠快、能回答的問題太少、很多任務無法完成……這是語音助手過去被詬病的地方。語音助手是剛需,只不過大家都沒有完善的解決方案,正是因為此,語音助手市場機會重重,這是一塊並未真正被開拓的處女地。

度秘要做秘書式機器人

很多人都幻想過擁有一位漂亮、貼心的秘書,對你言聽計從、完成各種任務,不過聘請一個專職秘書可不是每個人都能負擔得起。但如果機器能夠做到這一點,相信沒人會拒絕。遺憾的是,這類場景只存在於科幻片之中,機器想要跟人類一樣聰明還需要很漫長的時間。不過,這並未打消探索者的勇氣,百度世界大會推出的“度秘”則是采取秘書式機器人的思路——就像它的名字一樣。

相對於各類語音助手而言,度秘有兩個新的嘗試。

1、與用戶多輪對話,就像人與人之間的交流一樣,基於上下文理解用戶的意圖。要做到這一點主要是技術挑戰大——機器識別單句自然語言的語義都不容易。基於上下文等於要不斷記錄交互過程,不只是理解單句話,要知道人類有時候都“跟不上”別人說話。百度基於深度學習的Deep Speech技術部分實現了多輪交互,這是更加簡單、自然和便捷的方式。除了百度,微軟此前曾推出過小冰對話機器人,有小道消息稱微信或將推出類似的支持多輪對話的機器人——它們都是文本形式。

2、可以完成更多任務,主要是指獲取生活服務。李彥宏演示了通過度秘訂咖啡、訂餐廳、預訂寵物醫院、購買電影票等操作,整個過程是“連貫”進行的。這走在了前面:Siri最多被使用的設置鬧鐘、問天氣、調用通信錄打電話這類功能,是在操作手機本身,互聯網內容和生活服務獲取不是它的強項(最近Siri與百度百科達成合作來解決這些問題)。Google Now主要做信息推送,微軟Cortana解決個性化資訊獲取和設備數據處理,Facebook M正在小範圍測試預訂餐廳等服務,Magic以及國內的“神豬”通過人工處理用戶的語音指令——跟12580等電話呼叫中心本質一樣。只有度秘是自動化地獲取多樣化的生活服務。 

幾大語音助理對比

度秘之所以能夠同時實現多輪交互和服務獲取,我認為原因在這里:

1、深度學習為核心的人工智能技術被應用到語音,這是多輪交互的基礎。除了百度,微軟在人工智能上布局較早,所以可以做小冰,Cortana未來也可以支持多輪。

2、百度連接人與服務大戰略下本身就在將越來越多的生活服務“搬到互聯網”上,結構化、標簽化、交易化,通過糯米、外賣、票務等子業務可以實現預訂。就是說,百度有服務內容,同時具有服務內容和智能技術的玩家並不多。

3、識別率以及抗噪能力這兩個基礎技術足夠用。今年早些時候百度曾宣布基於深度學習的語音識別技術超過了微軟和Google,能夠識別準確“聽清”,是“聽懂”的前提條件。

Siri正在被重新定義

巧合的是,據外媒報道9月9日蘋果所發布的iPhone6S重頭戲將是Siri。上個與Siri與百度達成合作引入百度百科內容,很大程度彌補了Siri內容不足的問題。Siri已經意識到現存問題,不甘只做被用戶“調戲”的玩具。它想要重新定義自己,不再只做“語音助理”,不想將市場讓給另辟蹊徑的百度們。

通過語音識別來替換拼音的輸入法,通過語音來設置手機鬧鐘,通過語音去關閉客廳的電燈,通過語音去點一首歌曲……都只是部分應用場景,主要在解決“交互問題”,即輸入和輸出,這顯得有些大材小用了。在可見的未來語音助理都會向著秘書機器人方向發展,它可以幫助你安排生活、幫助你設置設備、按照你的指令設置環境、陪你聊天……就像秘書一樣——當然,不能像實體機器人那樣給你擁抱,幫你做飯,陪你睡覺,但是機器人都需要智能的語音能力。

百度首席科學家吳恩達在百度世界分享了一個很有意思的觀點:很多人沒有意識到95%的準確度到99%的準確度帶來的是質變,99% is a game changer,99%準確度將徹底改變人與設備應用交互。他認為人工智能已經走向智能伴侶時代。度秘基於相對成熟的語音和AI技術,做到99%的程度是現實的目標,有望成為game changer。Cortana、Google Now、Siri們很快都會支持類似的“秘書式機器人”功能,新一輪廝殺已經開始。

版權聲明:本文作者羅超,微信luochaotmt。文章僅代表作者獨立觀點,不代表i黑馬觀點與立場。

PermaLink: https://articles.zkiz.com/?id=159345

Next Page

ZKIZ Archives @ 2019