當地時間2012年3月13日,美國華盛頓,一位女士正在試用iPhone4S手機上的Siri語音助理功能。東方IC供圖
類似中國「Siri」或安卓「Siri」的計劃不太適合國內創業公司,因為投入大、風險高、技術難以實現。——創新工場董事長兼CEO李開復
中國「Siri」從頭開始創業難,但有積累有實力的中國企業還是存在的。建議這些實力企業積累自身創新研發能力的同時,要考慮可持續發展性。——天使投資人薛蠻子
「『漢堡包多少錢一個』英文怎麼說?」科大訊飛董事長劉慶峰向手上的智能手機發問,頓了兩三秒,手機「說話」了,不過說的卻是德國城市漢堡的百科知識。劉慶峰再試,手機才給出了正確的回答:「How much is a hamburger?」
這不是蘋果的「Siri」,而是科大訊飛不久前發佈的「訊飛語點」,柳傳志、李開復等知名人士和1000多個開發者見證了此次發佈。幾位業界大佬們的現身和發佈會上語音識別出現錯誤,是國內手機智能語音助手開發領域火爆與問題並存的一個縮影。
自從蘋果在iPhone4S上推出智能語音助手「Siri」以來,智能語音助手的開發熱潮從國外迅速蔓延到國內。短短兩三個月,小唐龍、Airi、蟲洞、小i機器人等智能語音助手,如雨後春筍般冒出頭來。
如此火爆的情景,讓人不由發問,在中國類似「Siri」的開發和應用迎來春天了嗎?
中國「口音」帶給本土企業機遇
目前,蘋果公司對於Siri中文版研發進度、推出時間三緘其口。蘋果公司為何遲遲未推出Siri中文版呢?
有分析認為,聲調和地方口音龐雜,或許是Siri中文版遲遲未推出的主要原因。一家國外媒體表示,對於語音識別來說,中文極具挑戰性,因為普通話只有400個單音節聲音,根據聲調予以區別,而且中國還擁有很多種方言和數不盡的地方口音。
「中國語言和文化的特殊性,是Siri中文版需要克服的最大癥結。」捷通華聲董事長張連毅分析,以中國為代表的亞洲語言、文化有其特殊性。雅虎、谷歌等互聯網巨頭曾經橫掃國際市場,但到了中國就「水土不服」,就是因為這個原因。
在這種情況下,一些國際語音巨頭轉而謀求收購中國公司。今年1月,自主研發的智能手機助手「小唐龍」,僅比蘋果公司iPhone4S發佈的Siri晚了3個多月。但早在2010年,總部位於美國的一家世界級語音技術公司就找上門來,希望收購捷通華聲。
「蘋果公司前段時間在日本推出了Siri日文版,但並不是很成功。」張連毅分析,在中國市場上,蘋果公司一定會慎重而行,畢竟中國是一個龐大的市場。一旦推出一款不完善的產品,將會對蘋果公司的品牌形象造成「難以估量的影響」。
國際巨頭的劣勢,對中國企業而言就是機遇,這也是中國企業研發類似Siri產品的最大優勢。
此外,與蘋果公司相對封閉的體系不同,中國本土企業的語音平台從一開始就是開放的。今年初,捷通華聲和科大訊飛兩款智能語音平台——「靈云」、「語音云」上線,向第三方開發者開放。第三方開發者可以利用語音平台開發出第三方應用。
創新工場董事長兼CEO李開復認為,語音平台向第三方開發者開放,開發者的參與必然會提高語音技術應用成功的概率。他還以自己的博士論文為例解釋 說,做語音技術都基於語料庫,語料庫越大效果就越好。一個人能錄的語料很有限。但如果中國有一億用戶,每人一天哪怕講三秒,綜合起來是一個可觀數字。
「從3000萬用戶、到一個億、再到三億用戶,用戶量增長會讓語音云功能更強大。」劉慶峰期望通過用戶增長帶來更豐富的語料,「新一代語音云平台推出後,用戶對口音、專用詞彙進行個性化訓練,可進一步提升語音作用」。
資金與技術掣肘中國「Siri」
看起來前途無量,但張連毅卻馬上加了一句:「即使再過一百年,語音技術也到不了完全成熟的地步。」一句話,折射出語音技術絕非一蹴而就的境況。
對於語音控制的前景,微軟的創新人蓋茨也曾說過,五年後語音會改變世界。只是,這樣的論調,蓋茨每隔五年都要再說一遍。
「過去30年,總說語音要改變世界,為什麼沒有改?有幾個理由,第一是語音識別的精確度不夠,第二是語音應用在哪裡,靠一小批的語音專家拍腦袋想,不是辦法。」李開復說。類似中國「Siri」或安卓「Siri」的計劃不太適合國內創業公司。
要知道,李開復從上世紀80年代就開始研究語音技術,他的一項語音技術還獲得過美國商業週刊最重要發明獎。但這其中到底難在哪兒?
資金投入是第一個難題。「語音合成、語音識別、語義識別,這些方面都需要建立數據庫。從成立以來,公司累計在語音技術上的投入至少超過2億元。有限的利潤中,前七八年股東沒拿過一分錢,全部投入再開發。但由於市場有限,企業效益卻不能立竿見影上新台階。」
張連毅承認,就是因為公司「過得很艱難」,他數次想到要放棄。當2010年那家外國公司上門談收購時,他「心動」了,最後簽字前才拒絕這項收購邀約。
那有了巨額投入,就能成功麼?
「做語音技術,沒錢肯定不行,但有錢也不一定就行。」張連毅說,因為有些知識是需要時間積累的。在以前,語音技術通常用於特定領域,比如天氣、股票 等,這樣的數據庫相對就小很多。而現在,它們的技術已經可以不限領域,不限話題範圍,不限制發音人。但即使這樣,仍然存在問題。「比如,如果說一句話時, 中間增加停頓,它便無法正確理解。」
小i機器人的創始人袁輝亦認為,Siri的核心不是語音控制,而是人工智能,對複雜語法的分析。比如你對手機問「北京天氣怎麼樣、北京下雨了嗎、需 要加衣服嗎」,這三句話表達的是一個意思,智能機器人需要理解這三個問題,通過語法分析給出一個答案,但語音控制解決不了這些問題。
另外,語音的交流會帶來用戶期望值的提高,人們一旦開始使用語音跟機器交流了,就會把它當做一個人,期望值的提高,會給語音帶來很大的挑戰。美國的 iPhone4S用戶此前就提出訴訟,稱Siri無法理解用戶表達的內容,蘋果具有欺詐性質的廣告與實際使用及操作Siri的體驗嚴重不符。
中文智能語音交互是一個巨大的市場,也是一個亟待挖掘的金礦,「但只有那些長期積累和考慮可持續發展的企業,才能使中國『Siri'技術得到更好的發展,成為代表中國的『Siri'。」袁輝直言行業憂慮。