📖 ZKIZ Archives


訊飛:打開語音新世界

http://content.businessvalue.com.cn/post/6032.html

一個大學裡的語音實驗室,如何成長為一股影響移動互聯網產業的力量?

在美國熱播劇《生活大爆炸》中有一集十分有趣:宅男Raj手持一部iPhone 4S,愛上了其中的語音助理Siri,雖然後者只是一種發女聲的手機功能,但Raj深陷其中不能自拔。他會詢問Siri附近的咖啡館在哪兒,並想像自己去 那裡與它約會,甚至會讓Siri給自己放首歌,深情地邊聽邊說:「只有你最懂我。」

雖然劇情誇張,但起碼這從一個側面證明,手機語音功能的普及讓普通老百姓也開始能接受這樣的笑料,也證明了在移動互聯網時代,語音技術正在成為一種流行的、全新的人與手機的交互方式。

在微軟創始人比爾·蓋茨眼中,未來影響世界的三個技術領域——語音、觸摸和視覺中以語音居首;而蘋果公司更是在新一代iPhone中直接將語音助理Siri作為了其最大賣點之一。

擁有語音技術的公司成為大眾熱點,也成為移動互聯網的行業焦點,這使得一家在公眾視野蟄伏了10年的中國本土公司逐漸浮出水面。

訊飛立足點

1999年春節前夕,安徽合肥,現在的科大訊飛董事長、當時的中國科技大學在讀博士生劉慶峰實際上正面臨兩難選擇。他所在的中國科技大學的語音實驗 室一直與一家福建企業合作,可對方因為種種問題資金遇上了困難,連實驗室的基本工資都發不出。作為這個實驗室的負責人,他要麼「事了拂身去」,出國並繼續 他的博士學業——這樣整個團隊勢必會解散;要麼留下來牽頭帶領這幫一起幹的夥伴們繼續前行。

據科大訊飛副總裁江濤回憶,「慶峰其實只需要把實際情況跟大家說清楚,跟自己就半點關係沒有,但他還是不動聲色地以個人名義借了錢回來給大家發工資」。

「當時我還是有點過度樂觀吧。」劉慶峰說,「我們下決心產業化,當時的信心和現在一樣,認為未來每一部手機、轎車、家電、玩具,語音都將成為一個基本需求點,而且以我們的技術能力,有可能成為行業領導者。」

在此之前,實驗室參加「863計劃」的比賽剛剛以3.0的高分奪得第一名。中科大的學生當時會聚了全國精英,而在團隊裡還有一些外面的技術高手,劉 慶峰認為解散太可惜。資方並不懂技術,較為急功近利,經常進行研發方向的調整,把團隊折騰得夠嗆,劉慶峰決定站出來解決這一切。「本來我們的夢想是成為類 似美國貝爾實驗室的存在,我就當個總工程師挺好,可形勢的發展讓我不得不站出來當CEO。半年之後,感覺還不錯。」他說。

這就是科大訊飛的成立故事,從裡面不難看出這家公司的一些特徵:技術驅動、對語音未來的篤定以及濃濃的校園風格。這使得它和美國硅谷一些知名技術公司擁有相似的氣質。

可是語音到底什麼時候能夠產業化並且獲得收益?沒有人心裡有譜。

其實早在20世紀70年代,世界各國就有很多組織開始研究語音技術,包括語音識別、文本朗讀、指令判斷等。到20世紀80年代,語音就開始被稱為 「未來5年的技術」,可過了一個又一個5年,它卻似乎永遠站在遠方,離普羅大眾的距離從未真正接近過。在國內,20世紀80年代「863計劃」也扶持了很 多語音實驗室進行相關研究,中科大、清華、聲學所、語言所等均在其列,只是研究的側重方向各有不同。

為什麼語音技術難以產業化?因為語音技術說白了就是機器對人聲音的識別、判斷與輸出,涉及到不同國家、不同口音的人和大量聲學、語言學、數字信號處 理知識。作為一項基礎技術,它不僅考驗語音聽和寫的能力、搜索能力、語音合成能力,還有複雜得多的與電腦相關的數據庫等後台能力。

在單機時代,光是辨別語音所需要的龐大數據庫存儲和計算能力就讓人頭疼。要想語音識別準確,就必須有海量數據庫進行匹配,還要通過算法來讓它實現快捷高效,這幾乎是一件不可能完成的任務,硬件的門檻將無數研究者阻擋在技術商用化的門檻之外。

可是從20世紀末開始,一切似乎正在發生變化。互聯網的興起讓這樣一種模式成為可能:大量的存儲計算放在服務器端(云端)來完成,而前端的電腦則只需要採集聲音和給出反饋就可以了。只不過網絡帶寬的限制以及電腦麥克風當時並不普及,語音技術還沒獲得生根發芽的土壤。

此時的科大訊飛,在拿到第一筆投資、還未能盈利之前,就做出了一項「風險很高」的決定:以企業的方式,與中國在語音研究領域領先或有特色的院校建立聯合實驗室形成了「產學研」結合的雛形。

它的邏輯很簡單:語音技術未來一定很值錢;各個院校擁有不同細分領域的語音技術,融合起來才能具有威力;能將中國最好的做語音研究的人才儘可能網羅到一起。這筆「技術投資」,為訊飛今後的發展提供了堅實的基礎,這也是訊飛從技術核心出發的第一項重要決定。

從B到C

心氣高、兵馬壯的訊飛,幾乎在做第一個產品時就遭遇了挫折。「當時我們做了一個面對消費級PC市場的統一輸入法,你可以用語音、手寫等各種方式輸入中文,可產品辛苦研究出來卻沒有人買賬。」江濤說。

對當時的訊飛來說,消費級市場實在是一個難以跨越的坎,因為它意味著要為產品建立一個全國的銷售網絡、服務網絡,光服務成本就入不敷出。再加上 2000年初,「統一輸入法」這樣的產品並沒有市場,消費者根本沒有對於語音的認知,而鍵盤和鼠標已經足以滿足他們在PC上簡單的輸入需求。

這時候,劉慶峰做出了第二個重要決定:砍掉辛苦努力了很長時間的B2C業務,專注於B2B企業級服務。

在之前1999年中國國際高新技術成果交易會上,科大訊飛只有幾平方米見方的展台上迎來了幾位客人,他們對訊飛的產品表現出不同一般的興趣與瞭解。 這是華為的人,作為移動通訊設備廠商,他們看到了語音對於移動通信產業的意義。雙方幾乎一拍即合,華為採購語音引擎,訊飛則成為其技術供應商。

好的技術總會有價值,與消費者相比,企業客戶更專業、理解力更強,這讓幾乎全技術班底的科大訊飛不用再去做那些不擅長的事,將精力聚焦在了語音技術本身和運營服務中。

客戶接二連三地來,訊飛也終於擺脫了剛開始的茫然,進入有序發展,並接連引入了聯想投資、復星資本等投資方。「聯想和復興的風格完全不一樣,前者對 我們工作很細緻,幫助我們建立了管理體系;後者則完全信任,給了我們更強的信心。」2004年依靠B2B,訊飛實現了盈虧平衡。

已經有了一定實力的訊飛開始將目光再次瞄向最終用戶,可它卻用了一種由企業到用戶的曲線方式。它向自己的電信運營商客戶如中國電信提出了一項要求:希望從只提供技術引擎,變為自己來直接做運營與維護。這樣來與用戶發生接觸。

與此同時,它還發現了另一個「金礦」,那就是教育市場。學習不過是「聽說讀寫」,其中很多層面涉及語音,通過提供這一垂直場景的帶讀、朗誦語音評測等技術功能,訊飛已有斬獲,基本上對教育市場(學習機)形成了近乎壟斷的優勢。

2008年,科大訊飛上市。在企業級市場上技術加實幹,為它贏得了極大空間,可上市之後幹什麼?訊飛將目光重新投注在了其初衷上。

當時做統一輸入法為什麼失敗?「不是模式錯了,而是模式沒有適合當時的背景。」劉慶峰說。而現在,背景環境似乎已經轉向。

新基礎服務提供商

2007年開始,移動互聯網迅速發展。iPhone手機和Android系統的發布讓智能手機迅速開始普及,移動帶寬到3G時代得到了明顯提升,而手機天然的隨身性和麥克風等硬件所賦予的良好交互性,為語音類產品發展提供了天然機遇。

訊飛一方面深入語音研究,對技術最前沿能做到什麼樣心裡有底,另一方面,與數千家合作廠商日復一日的密切接觸,能讓它對產業引爆點的判斷更加精準。

傳統語音技術,無外乎語音合成、語音搜索、語音聽寫三類,在準備了很長時間之後,2010年末,訊飛推出了自己的「語音云」平台,將語音能力提供輸 出接口,讓很多移動互聯網創業者能由此為自己的應用引入語音能力。而在此之外,訊飛則選擇擅長的領域做一些「示範應用」,在第一代語音云上,示範應用是訊 飛語音輸入法和互聯網電視語音搜索。

這是另一片戰場,國外谷歌等互聯網公司也有提供類似服務,但訊飛在技術上有著過硬的功夫。2006年到2011年,訊飛連續6年獲得英文語音合成國 際大賽(Blizzard Challenge)第一名,2008年獲得國際說話人識別評測大賽(NIST)第一,2009年則又拿下高難度混淆方言測試指標冠軍。

到2011年末,一年時間訊飛語音云用戶總數超過1000萬,而之後三個月,用戶總數超過了3000萬,合作夥伴超過3100家,每天服務請求量超過700萬次。這是一個驚人的數字。

2012年3月22日,訊飛在北京國家會議中心舉辦新一代「語音云」發佈暨語音開發者大會。聯想控股董事局主席柳傳志來了,創新工場董事長兼CEO 李開復來了,小米公司、大眾點評、知乎等互聯網公司也來了,現場人數達到2300人之多,場面火爆。所有人的目的都只有兩個字:語音。

新一代語音云增加了自然語言理解、個性化語音識別、口語評測等新能力特性,而其示範應用,則是一款名為「訊飛語點」的工具。

在試用過程中,訊飛語點雖然還有一些小Bug,但總體表現出了很強的辨識度和易用性。比如當你念出「把張三的手機號碼發短信給李四」,語點就能自己 識別出人名、指令,並完成相關操作。除此之外,它還能設置日程提醒、手機導航,還能查詢天氣、股票等信息,甚至可以做算術、講笑話。這一應用將新的語音云 平台能力展露無遺。

毫無疑問,經過10多年發展之後,訊飛有了兩塊最具價值的資產,那就是語音云和相關技術,再往上,各個實驗室是「正在下金蛋的雞」,而產業合作還在將這些金蛋換成金錢。

據《商業價值》瞭解,考慮到新一代語音云平台多出了很多新的特性,不僅增加了指令和個性化學習,而且還大幅提升語音識別準確率,訊飛今年年初曾面臨兩個選擇:一個是獨享自己的語音云平台,基於它推出新的創新產品,二是直接將升級版的語音云平台向整個行業開放。

在思索一段時間後,訊飛還是決定選擇後者,因為作為一種基礎能力,開放的語音技術力量將能支撐整個行業用更快的速度前行。

現在,訊飛的想法是自己做10%。「我們做開放平台跟訊飛的特點有關。語音應用無處不在,在每個領域都有前景,能力要和應用場景深度結合才有用,這是一條漫長的路。」劉慶峰說,「我們有最好的嘴巴和耳朵,還有基本思維,可是需要大家一起教育它。」

而相關的應用場景,最主流有三類:手機基礎操控類,比如打電話、發短信、設置日程等;助理類,訂酒店、問路、問天氣等;還有行業夥伴在各個行業的產品中增加聽說功能。這已經是一個相當大的佈局,訊飛正在向著新一代移動互聯網基礎服務提供商的位置前行。

有人覺得,科大訊飛的幾個發展點都踩得很正,並且符合語音技術產業化的成熟節奏:成立後不久就找到了華為、中興等移動設備商作為客戶,用穩定的收入 站穩了第一步;後來又在合適的時間點與移動運營商合作,同時發現教育市場這片金礦,成為其中語音最有影響力的技術產品提供商;2008年上市後,開始從企 業級往移動互聯網消費端滲透,做訊飛語音輸入法並獲得一定成功,第一版語音云平台也擁有了3000多個合作者,未來機會很大。

這確實是科大訊飛比較重要的三個發展階段,但它遠遠不是全部。

劉慶峰認為,訊飛走的是一條「彎曲的直線」,朝著正確的方向,但中間也有很多不為人知的失敗,「我們不是剛好踩到點,只是很多踩不到點的地方大家都看不到而已」。

對他而言,訊飛目前的成果經過了幾代人的努力,核心技術持續突破,到如今才真正達到了大規模實用的門檻。而訊飛一直在朝著既定目標前進,那就是讓語音真正成為所有人身邊能使用的產品。


PermaLink: https://articles.zkiz.com/?id=32682

Next Page

ZKIZ Archives @ 2019