📖 ZKIZ Archives


科大訊飛的語音生態夢想

來源: http://newshtml.iheima.com/2015/0131/149042.html

黑馬說:讓機器能聽會說、能理解會思考是未來人機交互的發展方向,語音作為最被看好的人機交互方式,可進入我們生活的每個角落,有人類活動的地方就有語音需求,科大訊飛能實現其語音生態夢想嗎?
 
\ 
口述/劉慶峰  科大訊飛創始人、董事長
整理/崔婧
編輯/蒲鴿


現在互聯網行業有個說法是,做平臺才會生生不息。我覺得,做生態和做開放平臺是差不多的意思。就我的理解,科大訊飛(下稱訊飛)生態架構應包括以下三方面內容:

第一,語音的特點決定了語音產業需要構建更好的生態。這是因為,語音可進入社會生活的每個角落,有人類活動的地方就有語音需求,甚至未來機器和機器通話也需要語音,從能聽會說,到能理解會思考。語音不是單一產品,圍繞它能夠衍生出很多應用。
 
第二,必須搭建平臺,以讓更多人通過自我創新從中獲益,因此未來構建的應該是一個合作共贏的生態體系。基於此,我們已將訊飛語音雲平臺開放出來,為平臺上近5萬個創業者提供核心技術,提供雲端各種資源存儲以及後臺分析能力,甚至把之後的變現能力也已開放出來。要打造的生態,必須具備可觀的成長空間,能夠為合作夥伴帶來全新價值。

第三,構建一個生態,就像培育一株大樹,樹的根系很重要,而訊飛,希望在語言和語音產業中扮演發動機的角色,不斷創造出全新技術。從語音合成,到訊飛語音雲,到聲文識別,到口語評測,到翻譯,到自然語言處理和圖像人臉識別技術,每一步都已證明,訊飛勝任產業發動機這一角色。


語音生態圈包括這樣一個鏈條:硬件研發—軟件研發—語音方案研發—集合方案後的產品制作—面向C端用戶的軟件開發—C端用戶的使用,同時C端用戶的使用又把信息從產品導向了語音,繼而導向軟件,再導向硬件。整個參與過程,因有了信息的流動,價值得以產生。價值何來呢?這就是訊飛語音雲平臺目前在做的事,即對用戶數據進行分析,為用戶畫像,以此指導訊飛的商業化。這是一個縱向生態鏈。
 
我覺得,在中國各產業發展過程中,未來一定要有一批自主創新企業在生態體系中掌握價值鏈主導權,這樣我們的產業才能持續健康成長。我希望,未來的訊飛能夠主導價值鏈關鍵環節,通過持續不斷的源頭創新,將這一生態做大。
 
最優化核心技術
 
訊飛對整個產業生態的貢獻,首先是iFly inside,即為廣大To B客戶提供最好的技術支撐。中國電子企業百強前10名中,有8家在用訊飛的技術。放眼各領域,目前國內已有2000多家龍頭企業在用訊飛的語音技術。
 
創業初期,我們也曾走過彎路。那時,我們下了很大功夫,開發出了一款電腦桌面軟件“暢言2000”,試圖把手寫輸入的隨意性、鍵盤輸入的準確性和語音輸入的高效性完美結合起來,然而產品叫好卻不叫座,市場反饋不如人意。之後,我們又嘗試用語音合成技術解決海量動態信息,並找到當時異常火爆的合肥及上海的168聲訊臺,成功進行了試點,結果仍是產品沒有辦法銷售出去。
 
屢遭挫折後,我意識到,訊飛直接做消費者市場有些理想化,於是重新調整了思路——讓有渠道、有市場、有技術的大公司去直接面對消費者,我們準備像Intel一樣,專註做好iFly inside。換言之,訊飛只負責開發引擎、語音合成和語音識別芯片,而應用集成則由下遊的開發商或客戶自己完成。
 
2000年初,訊飛順利通過了華為的技術測試,成為後者語音合成技術供應商。不久後,來自中興、鑫泰、神州數碼等大型企業的語音技術服務訂單接踵而至。這是訊飛企業發展史上的里程碑式事件。自此到當年年底,訊飛迅速發展了近50個穩定的TO B客戶。
 
之後,我們通過跟美國的Nuance公司合作,又切入到了語音識別技術領域。後來,我們感覺,訊飛自主研發的技術可逐漸超越對手,因此在2006年,我們告訴Nuance公司,不跟它合作了,因為我們要自己獨立研發。2年後,訊飛該領域技術已超越Nuance。
 
那時候,我們更多的是在技術上支持企業。基於用戶打電話訪問自己賬戶信息的情況,多家銀行陸續推出了電話銀行業務,但隨著客服成本越來越高,銀行希望用戶的一些簡單查詢能夠以機器答複替代人工,以減少坐席人員投入。國內最早有此需求的是中國工商銀行總行。當時訊飛的技術滿足了該行要求,成功中標。
 
為了推廣技術,我們還搞了一個語音應用行業峰會。我們把金融、證券、運營商等行業代表以及行業內信息化專家都邀請過來參加論壇。這個論壇一般圍繞兩件事情來進行, 一是討論當前語音技術發展處於何種階段,一是為使用我們語音技術的企業(比如工總行、中移動)提供一個介紹經驗的場合,讓其他同行業夥伴了解我們的語音技術在這些企業應用的情況,這些企業也挺樂於分享基於語音技術推出的一些創新型項目。
 
在行業內傳播開來後,我們也定期印制期刊寄給這些企業,主要內容包括訊飛的應用案例,語音技術處於什麽狀態,語音技術在哪些行業已經產生了哪些新應用等。這些企業的老板看到信息化專家的觀點之後,就會琢磨:我這個行業是不是也可以使用訊飛語音技術降低成本、產生價值,或者創造一些新的效益呢?
 
我們的客戶主要定位在中大型企業,因為訊飛提供的技術往往有較高門檻,企業需要先花費高額資金購買訊飛的技術,才能再去開發自己的應用。
 
在構建訊飛生態系統時,我們更為關註用戶使用習慣和技術匹配度。技術到哪一步,能夠打動什麽樣的用戶群,這需要有一個非常切合實際的認識並不斷進行摸索。當然,真正難突破的是源頭技術的創新,之後才是應用的創新。這就好比,如果沒有3G、4G等基礎通信技術的發展作為支撐,就不會有現在移動互聯網對傳統產業模式的顛覆。但很多人都不去想未來創新的真正源頭到底在哪兒。
 
順勢搭建平臺
 
在提供核心技術的基礎上,我們又進了一步,搭建了雲平臺,為所有創業者提供開發平臺。
 
這是有原因的。自2007年開始,互聯網應用逐漸興起,我們陸續收到了來自中小企業和開發者的很多反饋,他們很想使用訊飛的技術,但使用成本太高。
 
這也不難理解。一般而言,企業開發應用前,需要先花30萬元買硬件,花30萬元買平臺,再加上其他成本,沒有100萬元預算,根本沒辦法開展業務,但這一投入對於中小企業和開發者來說,過於高昂。
 
1年後,我受到了如下啟發:用戶擰開水龍頭,就可以接到水,但他不見得非要自己建個小型自來水廠。有了這樣一個思路,訊飛借助互聯網搭建了一個雲平臺。在使用核心技術外,該平臺可降低創業者初始開發門檻,產品開發出來後,他可直接依托訊飛語音雲平臺對外提供服務,免去了前期在服務器上的資金投入。
 
對於我們自己來說,通過雲端,可以自我學習和進化,後臺數據越多,我們的識別準確率越高。建這個平臺的時候,我們也不知道用戶數可以達到目前的近6億,下載量可以達到目前的9億多。
 
2010年底,我們正式發布了訊飛語音雲以及語音輸入法體驗版。站在發布會現場進行演示時,我很緊張,擔心出岔子。因為當時我們的團隊對於做平臺還沒有太多經驗,輸入法性能不太穩定,在發布會之前,已出現過網絡超時等問題。不過,好在我們平臺技術人員為此熬了四五個通宵,這通宵沒有白熬,當天的演示很成功。
 
發布會後,訊飛用戶數增長非常快,這是我沒有想到的。但過了幾天,用戶流失率開始直線下降,突然間幻覺破滅了。我開始擔心用戶不再關心語音,開始懷疑該產品能否被用戶一直使用。後來我們分析了原因:用戶很可能只是覺得好玩才下載的。從讓大家覺得好玩到讓大家覺得好用,對我們來說,是一個很大的跨越。我們開始註重產品的實用功能,比如打電話、發短信、聽音樂等。此後,用戶每天使用量開始慢慢提升。
 
訊飛是一家傳統的TO B企業,主要客戶是中興、華為、聯想等電信設備商和終端商,缺少對互聯網用戶的開放經驗,語音雲發布之後相當長一段時間都沒有多少用戶,半年只積累了100萬用戶,而我最初的預期是,一天就可以有幾萬的用戶增長,落差非常大。為此,我們去調研,結果很多用戶反映,輸入法的識別率根本不行,看到網絡不停地轉,但數據結果就是出不來。
 
這是語音技術準確率的問題。在網絡通暢的情況下,比如在試驗室內或特定衍生場景下,語音識別效果很好,但大規模應用時,準確率如何保障,我們缺乏經驗,沒有對移動網絡狀況予以優化。這對我們是一個技術上的折磨,當時很受打擊。
 
但我相信,語音應用一定是未來手機交互最重要的方式,所以我們一步步對產品進行了優化。一段時間後,用戶跟我說,訊飛的產品效果比以前要好很多,我聽後特別高興。
 
在過去的10年,通過iFly inside,我們發展了2000多個開發者,通過語音雲,在2年內已發展合作夥伴5萬多個,訊飛正從一個單一的核心技術提供商向基於雲端的開放平臺型企業轉變。
 
合作分享以共贏
 
平臺搭建完成後,訊飛將平臺向上下遊開發者開放,所有擁有核心技術的開發者都可以把自有技術放到這一平臺上來。
 
比如圖像識別技術。通過和香港中文大學教授湯曉鷗以及他的研究團隊合作,我們將人臉識別技術應用到了訊飛語音雲上來,使之識別準確率提高到了99%以上,比肉眼識別更精準。湯曉鷗是該領域頂級專家,精準人臉識別技術,實況人口流量狀況技術、照片自動人臉設備分類技術等,均為湯曉鷗及其團隊的科研成果。
 
我們還和哈爾濱工業大學合作了自然語言處理技術,推出了“哈工大訊飛語言雲”。哈工大“語言技術平臺LTP”是為開發者提供包括中文分詞、詞性標註、命名實體識別、依存句法分析、語義角色標註等自然語言處理技術服務的平臺,已經被500多家國內外研究機構和企業使用,其中百度、騰訊、華為、金山、中國科學技術信息研究所等多家大型企業和科研機構為付費用戶。目前它已成為國內外最具影響力的中文處理基礎平臺。
 
我認為,人工智能是未來真正可出現顛覆性產品的領域。我對這一領域的發展時刻保持著警惕,所以2014年,我們專門啟動了“訊飛超腦計劃”。該計劃聚集了來自語音及語言國家工程實驗室、清華大學、加拿大約克大學等10多位人工智能領域頂級專家。在實現了讓機器能聽會說之後,我們夢想是,讓機器能理解、會思考,而它的知識不是人類灌輸的,而是自己通過不斷學習獲得的。
 
事實證明,合作夥伴的先進技術可以對訊飛雲平臺的核心技術進行補充。開發者基於這一平臺可以不斷推出各種新應用,而他們之間,也借此得以相互關連。我們每月召開的訊飛語音雲沙龍都會邀請一些創業者來做經驗分享。
 
比如教育領域。現在,每天有7000多萬師生在用我們的教學產品。老師們的課件內容可以分享給訊飛,其他創業者可以在該平臺上共享使用。2013年底,我們和外研社合資成立了北京外研訊飛教育科技有限公司。外研社擁有國內大學英語教材60%以上的市場份額,在它將英語教學應用面向大學生推廣後,老師、學校、出版社以及更多第三方推廣教學應用的機構都可以在這個平臺上使用。
 
音樂領域亦然。目前全國唯一打通三大運營商的音樂搜索和音樂發布平臺就是訊飛做的,時下用戶已達9千萬,其中收費用戶上千萬。黃梅戲等地方戲曲,可以通過我們的音樂平臺推銷給各大運營商。而做音箱、玩具等其他產品的合作夥伴,可直接將該黃梅戲放到自己的個性化產品中使用。在我們的平臺上,大家可以相互促進、合作共贏。

聚焦爆發點
 
在上下遊開發者都已加入生態體系後,我認為,我們有必要在該體系中打造幾個近期可以引爆的重點領域:
 
第一,智能手機領域。我們除了自己主導的產品訊飛輸入法、靈犀助手之外,還形成了以訊飛、運營商、手機廠商為核心的生態體系。我們希望能有更多人加入進來。手機平臺是用戶根據宣傳引導沖動性消費的平臺,我認為,訊飛與中移動、各手機廠商的戰略聯盟會拿到最大份額。我們語音雲的用戶規模和創業項目數量都在行業中遙遙領先。訊飛輸入法排名在2013年就已超過QQ輸入法,2014年又已超過百度輸入法。根據最近12個主要應用商店語音助手下載量排名,前5名中,我們一家超過了另外4家的總和。
 
第二,教育領域。我們和基礎教育出版行業的龍頭——人教社合作,正在進行教學平臺、網絡學習、電子書包等一系列數字化產品的聯合開發和應用推廣工作;我們與北京師範大學合作,共同創建了基礎教育質量檢測協同創新中心,並推出了教育評價雲。總之,我們和出版社、大學都已形成很好的合作體系,這個體系也已開放給老師、第三方夥伴以及創業者。
 
第三,智能家居領域。我們跟北京、廣東等地方廣電,三大運營商,海信、長虹、TCL等國內前六大電視機品牌商都有合作。我們不光是讓用戶通過語音更為方便地看電視,還要向創業者開放,他們可以在上面開發兒童學習、故事頻道等應用。訊飛與中移動聯合推出的智能語音助手靈犀3.0,已可操控智能家居設備。年輕人裝修房子買家具時,只要按照我們建議的型號完成空調、微波爐、窗簾、電飯鍋等物品的采購,那麽他家里所有物品都可以用手機操控,甚至在路上就可以打開電飯鍋,提前把飯煮好。
 
基於中移動無線音樂基地大量正版音樂資源,我們與之聯合推出了訊飛智能音箱。不過,目前發展得如火如荼的智能家電產業,廠商產品存在接口不一等問題,沒有明確統一的行業標準,如果產品來自不同品牌,則很難建立完整的智能家居體系。未來,語音將進入到智能家居的各種各樣的設備中,如果能把設備、語音以及大數據相關的接口都打通,創業者就能共享一個統一的平臺,否則他就會被層層壁壘擋在創新門外,而這對整個產業生態體系的建立是非常不利的。
 
2014年,訊飛重要工作之一就是推動中國智能語音行業標準的落地。早在3年前,我們就已牽頭成立了語音產業聯盟,和運營商、電視機廠商、科研單位、語言技術研發企業以及各高校共同搭建了一個產業上下遊交流的平臺,得到了工信部的大力支持。
 
第四,車載領域。比如,奔馳汽車在時速超過100公里時,噪音很大,這時只有訊飛的技術能夠流暢使用。目前我們已和奔馳、寶馬、一汽等國內外汽車廠商,國內外多媒體廠商、導航廠商,甚至是整車廠商形成了一個體系,以加速推動智能語音在車載終端的深入應用。
 
本文不代表本刊觀點和立場。
 
 
 
 


本文為i黑馬版權所有,轉載請註明出處,侵權必究。


Next Page

ZKIZ Archives @ 2019