訊飛:打開語音新世界

Random Tags

碗酸糕下失眠撻過黃蜂近東乍起泰灃年認戴璐說太窮越四為 0713 邵非錯再發問將投機邊家腹步方緊人王毅雙拼暑運增量郭濟證詞 Meghan 變險埋瘡莊耀六穩 X86 中了對立戰缸八縱辭而想拆投保突無手沖底之雪急懷盡香櫞內債 104 都係

訊飛:打開語音新世界

http://content.businessvalue.com.cn/post/6032.html

一個大學裡的語音實驗室，如何成長為一股影響移動互聯網產業的力量？

在美國熱播劇《生活大爆炸》中有一集十分有趣：宅男Raj手持一部iPhone 4S，愛上了其中的語音助理Siri，雖然後者只是一種發女聲的手機功能，但Raj深陷其中不能自拔。他會詢問Siri附近的咖啡館在哪兒，並想像自己去那裡與它約會，甚至會讓Siri給自己放首歌，深情地邊聽邊說：「只有你最懂我。」

雖然劇情誇張，但起碼這從一個側面證明，手機語音功能的普及讓普通老百姓也開始能接受這樣的笑料，也證明了在移動互聯網時代，語音技術正在成為一種流行的、全新的人與手機的交互方式。

在微軟創始人比爾·蓋茨眼中，未來影響世界的三個技術領域——語音、觸摸和視覺中以語音居首；而蘋果公司更是在新一代iPhone中直接將語音助理Siri作為了其最大賣點之一。

擁有語音技術的公司成為大眾熱點，也成為移動互聯網的行業焦點，這使得一家在公眾視野蟄伏了10年的中國本土公司逐漸浮出水面。

訊飛立足點

1999年春節前夕，安徽合肥，現在的科大訊飛董事長、當時的中國科技大學在讀博士生劉慶峰實際上正面臨兩難選擇。他所在的中國科技大學的語音實驗室一直與一家福建企業合作，可對方因為種種問題資金遇上了困難，連實驗室的基本工資都發不出。作為這個實驗室的負責人，他要麼「事了拂身去」，出國並繼續他的博士學業——這樣整個團隊勢必會解散；要麼留下來牽頭帶領這幫一起幹的夥伴們繼續前行。

據科大訊飛副總裁江濤回憶，「慶峰其實只需要把實際情況跟大家說清楚，跟自己就半點關係沒有，但他還是不動聲色地以個人名義借了錢回來給大家發工資」。

「當時我還是有點過度樂觀吧。」劉慶峰說，「我們下決心產業化，當時的信心和現在一樣，認為未來每一部手機、轎車、家電、玩具，語音都將成為一個基本需求點，而且以我們的技術能力，有可能成為行業領導者。」

在此之前，實驗室參加「863計劃」的比賽剛剛以3.0的高分奪得第一名。中科大的學生當時會聚了全國精英，而在團隊裡還有一些外面的技術高手，劉慶峰認為解散太可惜。資方並不懂技術，較為急功近利，經常進行研發方向的調整，把團隊折騰得夠嗆，劉慶峰決定站出來解決這一切。「本來我們的夢想是成為類似美國貝爾實驗室的存在，我就當個總工程師挺好，可形勢的發展讓我不得不站出來當CEO。半年之後，感覺還不錯。」他說。

這就是科大訊飛的成立故事，從裡面不難看出這家公司的一些特徵：技術驅動、對語音未來的篤定以及濃濃的校園風格。這使得它和美國硅谷一些知名技術公司擁有相似的氣質。

可是語音到底什麼時候能夠產業化並且獲得收益？沒有人心裡有譜。

其實早在20世紀70年代，世界各國就有很多組織開始研究語音技術，包括語音識別、文本朗讀、指令判斷等。到20世紀80年代，語音就開始被稱為「未來5年的技術」，可過了一個又一個5年，它卻似乎永遠站在遠方，離普羅大眾的距離從未真正接近過。在國內，20世紀80年代「863計劃」也扶持了很多語音實驗室進行相關研究，中科大、清華、聲學所、語言所等均在其列，只是研究的側重方向各有不同。

為什麼語音技術難以產業化？因為語音技術說白了就是機器對人聲音的識別、判斷與輸出，涉及到不同國家、不同口音的人和大量聲學、語言學、數字信號處理知識。作為一項基礎技術，它不僅考驗語音聽和寫的能力、搜索能力、語音合成能力，還有複雜得多的與電腦相關的數據庫等後台能力。

在單機時代，光是辨別語音所需要的龐大數據庫存儲和計算能力就讓人頭疼。要想語音識別準確，就必須有海量數據庫進行匹配，還要通過算法來讓它實現快捷高效，這幾乎是一件不可能完成的任務，硬件的門檻將無數研究者阻擋在技術商用化的門檻之外。

可是從20世紀末開始，一切似乎正在發生變化。互聯網的興起讓這樣一種模式成為可能：大量的存儲計算放在服務器端（云端）來完成，而前端的電腦則只需要採集聲音和給出反饋就可以了。只不過網絡帶寬的限制以及電腦麥克風當時並不普及，語音技術還沒獲得生根發芽的土壤。

此時的科大訊飛，在拿到第一筆投資、還未能盈利之前，就做出了一項「風險很高」的決定：以企業的方式，與中國在語音研究領域領先或有特色的院校建立聯合實驗室形成了「產學研」結合的雛形。

它的邏輯很簡單：語音技術未來一定很值錢；各個院校擁有不同細分領域的語音技術，融合起來才能具有威力；能將中國最好的做語音研究的人才儘可能網羅到一起。這筆「技術投資」，為訊飛今後的發展提供了堅實的基礎，這也是訊飛從技術核心出發的第一項重要決定。

從B到C

心氣高、兵馬壯的訊飛，幾乎在做第一個產品時就遭遇了挫折。「當時我們做了一個面對消費級PC市場的統一輸入法，你可以用語音、手寫等各種方式輸入中文，可產品辛苦研究出來卻沒有人買賬。」江濤說。

對當時的訊飛來說，消費級市場實在是一個難以跨越的坎，因為它意味著要為產品建立一個全國的銷售網絡、服務網絡，光服務成本就入不敷出。再加上 2000年初，「統一輸入法」這樣的產品並沒有市場，消費者根本沒有對於語音的認知，而鍵盤和鼠標已經足以滿足他們在PC上簡單的輸入需求。

這時候，劉慶峰做出了第二個重要決定：砍掉辛苦努力了很長時間的B2C業務，專注於B2B企業級服務。

在之前1999年中國國際高新技術成果交易會上，科大訊飛只有幾平方米見方的展台上迎來了幾位客人，他們對訊飛的產品表現出不同一般的興趣與瞭解。這是華為的人，作為移動通訊設備廠商，他們看到了語音對於移動通信產業的意義。雙方幾乎一拍即合，華為採購語音引擎，訊飛則成為其技術供應商。

好的技術總會有價值，與消費者相比，企業客戶更專業、理解力更強，這讓幾乎全技術班底的科大訊飛不用再去做那些不擅長的事，將精力聚焦在了語音技術本身和運營服務中。

客戶接二連三地來，訊飛也終於擺脫了剛開始的茫然，進入有序發展，並接連引入了聯想投資、復星資本等投資方。「聯想和復興的風格完全不一樣，前者對我們工作很細緻，幫助我們建立了管理體系；後者則完全信任，給了我們更強的信心。」2004年依靠B2B，訊飛實現了盈虧平衡。

已經有了一定實力的訊飛開始將目光再次瞄向最終用戶，可它卻用了一種由企業到用戶的曲線方式。它向自己的電信運營商客戶如中國電信提出了一項要求：希望從只提供技術引擎，變為自己來直接做運營與維護。這樣來與用戶發生接觸。

與此同時，它還發現了另一個「金礦」，那就是教育市場。學習不過是「聽說讀寫」，其中很多層面涉及語音，通過提供這一垂直場景的帶讀、朗誦語音評測等技術功能，訊飛已有斬獲，基本上對教育市場（學習機）形成了近乎壟斷的優勢。

2008年，科大訊飛上市。在企業級市場上技術加實幹，為它贏得了極大空間，可上市之後幹什麼？訊飛將目光重新投注在了其初衷上。

當時做統一輸入法為什麼失敗？「不是模式錯了，而是模式沒有適合當時的背景。」劉慶峰說。而現在，背景環境似乎已經轉向。

新基礎服務提供商

2007年開始，移動互聯網迅速發展。iPhone手機和Android系統的發布讓智能手機迅速開始普及，移動帶寬到3G時代得到了明顯提升，而手機天然的隨身性和麥克風等硬件所賦予的良好交互性，為語音類產品發展提供了天然機遇。

訊飛一方面深入語音研究，對技術最前沿能做到什麼樣心裡有底，另一方面，與數千家合作廠商日復一日的密切接觸，能讓它對產業引爆點的判斷更加精準。

傳統語音技術，無外乎語音合成、語音搜索、語音聽寫三類，在準備了很長時間之後，2010年末，訊飛推出了自己的「語音云」平台，將語音能力提供輸出接口，讓很多移動互聯網創業者能由此為自己的應用引入語音能力。而在此之外，訊飛則選擇擅長的領域做一些「示範應用」，在第一代語音云上，示範應用是訊飛語音輸入法和互聯網電視語音搜索。

這是另一片戰場，國外谷歌等互聯網公司也有提供類似服務，但訊飛在技術上有著過硬的功夫。2006年到2011年，訊飛連續6年獲得英文語音合成國際大賽（Blizzard Challenge）第一名，2008年獲得國際說話人識別評測大賽（NIST）第一，2009年則又拿下高難度混淆方言測試指標冠軍。

到2011年末，一年時間訊飛語音云用戶總數超過1000萬，而之後三個月，用戶總數超過了3000萬，合作夥伴超過3100家，每天服務請求量超過700萬次。這是一個驚人的數字。

2012年3月22日，訊飛在北京國家會議中心舉辦新一代「語音云」發佈暨語音開發者大會。聯想控股董事局主席柳傳志來了，創新工場董事長兼CEO 李開復來了，小米公司、大眾點評、知乎等互聯網公司也來了，現場人數達到2300人之多，場面火爆。所有人的目的都只有兩個字：語音。

新一代語音云增加了自然語言理解、個性化語音識別、口語評測等新能力特性，而其示範應用，則是一款名為「訊飛語點」的工具。

在試用過程中，訊飛語點雖然還有一些小Bug，但總體表現出了很強的辨識度和易用性。比如當你念出「把張三的手機號碼發短信給李四」，語點就能自己識別出人名、指令，並完成相關操作。除此之外，它還能設置日程提醒、手機導航，還能查詢天氣、股票等信息，甚至可以做算術、講笑話。這一應用將新的語音云平台能力展露無遺。

毫無疑問，經過10多年發展之後，訊飛有了兩塊最具價值的資產，那就是語音云和相關技術，再往上，各個實驗室是「正在下金蛋的雞」，而產業合作還在將這些金蛋換成金錢。

據《商業價值》瞭解，考慮到新一代語音云平台多出了很多新的特性，不僅增加了指令和個性化學習，而且還大幅提升語音識別準確率，訊飛今年年初曾面臨兩個選擇：一個是獨享自己的語音云平台，基於它推出新的創新產品，二是直接將升級版的語音云平台向整個行業開放。

在思索一段時間後，訊飛還是決定選擇後者，因為作為一種基礎能力，開放的語音技術力量將能支撐整個行業用更快的速度前行。

現在，訊飛的想法是自己做10%。「我們做開放平台跟訊飛的特點有關。語音應用無處不在，在每個領域都有前景，能力要和應用場景深度結合才有用，這是一條漫長的路。」劉慶峰說，「我們有最好的嘴巴和耳朵，還有基本思維，可是需要大家一起教育它。」

而相關的應用場景，最主流有三類：手機基礎操控類，比如打電話、發短信、設置日程等；助理類，訂酒店、問路、問天氣等；還有行業夥伴在各個行業的產品中增加聽說功能。這已經是一個相當大的佈局，訊飛正在向著新一代移動互聯網基礎服務提供商的位置前行。

有人覺得，科大訊飛的幾個發展點都踩得很正，並且符合語音技術產業化的成熟節奏：成立後不久就找到了華為、中興等移動設備商作為客戶，用穩定的收入站穩了第一步；後來又在合適的時間點與移動運營商合作，同時發現教育市場這片金礦，成為其中語音最有影響力的技術產品提供商；2008年上市後，開始從企業級往移動互聯網消費端滲透，做訊飛語音輸入法並獲得一定成功，第一版語音云平台也擁有了3000多個合作者，未來機會很大。

這確實是科大訊飛比較重要的三個發展階段，但它遠遠不是全部。

劉慶峰認為，訊飛走的是一條「彎曲的直線」，朝著正確的方向，但中間也有很多不為人知的失敗，「我們不是剛好踩到點，只是很多踩不到點的地方大家都看不到而已」。

對他而言，訊飛目前的成果經過了幾代人的努力，核心技術持續突破，到如今才真正達到了大規模實用的門檻。而訊飛一直在朝著既定目標前進，那就是讓語音真正成為所有人身邊能使用的產品。

PermaLink: https://articles.zkiz.com/?id=32682

語音識別「在路上」

http://www.cbnweek.com/yuedu/ydpage/?raid=1892
　「鋼鐵俠」Tony Stark有一位智能管家，人們看不見它，它卻無所不知，是居家旅行、拯救世界的必備良物。

　　它滿足了人類對於「語音識別」技術的終極幻想。你可以把這位智能管家想像成Siri的未來升級版，它不但能夠完美執行指令，還能根據設備的工作情況甚至主人的心情提出建議。

　　下面回到現實。Siri眼下能做的最棒的事情，就是幫忙預訂某個酒店房間—諸如此類。不過不用悲觀，還有個好消息是，語音識別已經成為眾多科技公司的優先發展計劃。

　　2012年3月，一項能夠即時語音翻譯26種語言的技術被微軟研究院推出。與其他語言翻譯產品不同的是，這項技術除了翻譯多種語言之外，輸出的語音還可以模仿說話人的音色和音調，使它們聽起來接近使用者的真實聲音。當然了，現在它聽上去還有些生硬，感情色彩還不夠豐富。

　　這項技術的第一步仍然是語音識別，後者正被越來越廣泛的應用在眾多不同的領域。微軟用它來翻譯，在將語音進行識別之後，變成一項名為「跨語言的文語轉換」（Cross-Language Text-to-Speech，簡稱TTS）的技術。使用者只需要預先錄下幾十分鐘的母語作為訓練語音。軟件在進行識別、翻譯之後，就可以模仿說話人的音調和音色將翻譯好的、其他語種的文本說出來。

　　此前早已有蘋果Siri，它一度是iPhone 4S手機用戶的最大樂趣之一。另外在Android 4.1系統中，Google Now除了讓用戶實現語音搜索，還包含一個自動填充卡片的功能。當用戶搜索了一個地點、天氣或是航班時間，Google Now會自動建立一個卡片存儲細節，供用戶以後查閱。

　　人們對於語音識別的迷戀由來已久，甚至在計算機發明之前。早期的聲碼器，可以看作是語音識別技術的雛形。1920年代生產的「Radio Rex」玩具狗是眼下有據可查的最早的語音識別器，當這隻狗聽到自己的名字時，它就會從底座上彈出來，嚇人一跳。

　　作為諸多後繼的複雜應用的第一步，語音識別—讓機器讀懂你在說什麼，迄今為止仍然是一個大工程。你甚至也可以把它視為眾多語音類智能應用向前發展的絆腳石之一。

　　現在語音識別的主流技術，由數據統計模型和算法組成。如果把數據統計模型比喻成一個倉庫的話，那麼算法則是一隻機械手臂，從倉庫中「抓」出合適的數據進行匹配。算法包括了對數據存放位置的判斷等行為規則。數據越多，模型也就越大。

　　再簡單一點說，當你說了一句話之後，算法會從數據庫中抓取可能最符合你意思的那句解釋。因此模型中包含的數據越多，通常也就意味著識別能力越強。但問題來了。就像沒有一個倉庫可以存放世界上所有的貨品一樣，沒有一個模型可以解釋所有數據。人們可以說任何話，因此數據變化無窮。

　　所以你應該不難理解，以往一些初級的語音控制類的應用，比如導航、語音撥號等等，人們要啟動服務必須按照產品手冊的說明，完整地說出固定格式的句子，才能被機器所識別。在這些應用中，數據庫是簡單而又原始的，在識別過程中也沒有太多算法可言，它們只是負責「搬運」。

　　包括Siri和微軟TTS在內，語音識別被發展到了眼下的第二個階段：它們可以通過一定的規則和算法，將那些事先沒有包含在數據統計模型中的「話」也解釋出來，並且足夠簡單。

　　要實現這一點，仍然必須要有一個基礎的數據庫。在微軟的TTS技術中，那幾十分鐘的「訓練」，也就成了一種蒐集數據建立數據庫的方式。建立數據庫的好處在於，「它不能夠保證你肯定對，但它能夠保證最可能對，或者說可能最好的答案。」微軟亞洲研究院語音組首席研究員和負責人宋謌平對《第一財經週刊》說。

　　當訓練完成之後，語音識別就變成了一個排序過程。當一段語音被輸入，模型會通過自己的算法，從數據庫中尋找匹配度最大的那一句。各家公司不同的「算法」，以及建立起來的基礎數據庫，成了它們各自在語音識別上的核心技術。

　　一段話是誰說的並不重要，更重要的是它的文本識別率。按照宋謌平的說法，一般能達到90%以上的識別率，大部分的用戶都可以接受。

　　要提高準確率，除了數據庫和算法，另一個必須解決的問題就是在噪音環境中更準確地分辨出輸入的語音。

　　眼下要解決噪音問題一般通過兩種辦法，一是在訓練素材中包括噪音數據，讓模型「記住」聲音在不同環境下的差異，並在最終識別的時候，對噪音進行降噪處理；另外一種辦法，則是識別同樣噪聲環境裡的、沒有經過降噪處理的語言。

　　在數據庫有可能建立得比較大的情況下，蒐集到足夠的噪音數據、並在噪音中進行識別是一種最好的辦法。但現實是，一般意義上的「噪音」太多。比如汽車的引擎、餐廳中的各種聲音，本質上並不相同，但都會對說話人的語音輸入造成干擾。對於手機而言，計算和存儲能力都有限，建立龐大和複雜的模型並不現實，一般會直接使用降噪處理的辦法。

　　早在1992年，一家名為Nuance的公司就看到了語音識別技術的商機。目前Nuance在美國已經開闢出兩部分主要市場，包括諮詢業務和醫療診斷記錄的聽寫。2011財年，Nuance的營收共計13.18億美元，其中產品銷售及授權收入佔比46%，產品的使用人數已有1600萬。

　　這家擁有近4000項專利的公司通過提供面向醫療、手機、汽車等企業的語音解決方案盈利。在美國昂貴的人工費用壓力之下，包括美聯航和大部分醫院在內的機構，都開始選擇語音聽寫引擎這樣的識別設備，解決部分客戶服務和書寫病歷的問題。

　　將默默埋頭賺錢的Nuance推向前台的正是蘋果。由於Siri使用了Nuance的語音識別引擎，這家公司開始獲得越來越多的曝光。Siri曾在起步階段使用過其他平台，但最終切換到了Nuance，不知這是否與Siri和Nuance同樣出自斯坦福研究院有關。

　　曾有傳言蘋果與Nuance進行了幾個月的接觸，試圖收購後者，但因其價值連城的專利，以及「在談判時近乎於喬布斯級別難纏的CEO」，這場收購後來不了了之。蘋果通過引入Nuance的語音識別，再將識別之後的信息與其他「知識和資訊類數據庫」連接，在人機交互領域發起了一場革命。

　　2011年，通過云端訪問Nuance的語音數據庫的訪問量達到了20億次。眼下，它們也開始進入中國市場，最新版本的Siri將提供包括普通話、廣東話和台灣地區國語的識別。不過中文與英文的識別引擎完全不同，需要重新開發。

　　在中國，還沒有形成大規模的語音識別應用市場。國內語音市場佔有60%以上份額的是科大訊飛，主要營收也只是來自於語音合成技術。它只是讓電腦「念」出文本，在電信公司和銀行的呼叫中心裡較為常用。

　　微軟創始人比爾·蓋茨曾在2008年預測，五年之內互聯網的搜索大部分將通過語音完成。現在看來，他或許樂觀了一些。即使語音識別技術已經能夠適於應用，真正的人機交互還有待於語音識別的更深層—語義識別技術的發展。

　　如果從字面上解釋，語義識別的意義在於能讓機器真正明白信息的含義。當機器聽到一個名為「意大利菜」的關鍵詞時，技術優良的語音識別可能會做出搜索意大利菜的反應、或者幫你預訂好常去的餐廳，但語義識別則意味著，它還可能明白意大利菜會有什麼樣的口感、或者探知餐廳的氛圍。

　　語義識別的終極夢想是讓機器完全辨知人類說話的語義和情緒，就像「鋼鐵俠」的那位智能助手一樣。

　　與發展相對迅速的語音識別不同，現有的語義識別仍然處於基礎階段，是一種機械的識別過程。「這一類的技術基本上還是填空法。」宋謌平說。當機器聽到語音，進行識別之後，會從「語義數據庫」中搜索出與其相匹配的關鍵詞，與人的語義理解還有很大區別。

　　不過在一些垂直領域，語義識別已經獲得了一定程度的發展和應用。中華英才網的控股公司、美國最大的人力資源網站Monster，最近開始在中國市場推出一種名為6Sense的語義搜索專利技術。它能將求職者的工作經歷、技能、教育背景和所在地區，與目標職位匹配起來，再對他們進行分析、評級和排序，從而提高HR篩選簡歷的效率。在人力資源領域，「甲骨文」意味著那家國際知名的企業軟件公司，而不是中國古代文字。如果僅僅是圍繞在一個特定領域內，系統判斷和識別的難度要小得多。

　　從長遠來看，語義識別目前還有很多尚未突破的難點。最大的障礙事關情感，機器還沒有辦法理解人類的情感，它們只能通過語音信號的聲學變化去捕捉人類的情緒，比如頻率和時長這樣的參數；此外，因為語言本身的模糊性，識別過程中的關鍵詞抽取也經常出現不準確的現象。

　　小i機器人的創立者袁輝說，語義識別的下一步發展，需要長期的、系統的平台去處理每天進來的海量知識和信息，經過長期的集聚，形成工程化的產品，最後才能對知識進行篩選，甚至能夠學習新的知識點。

　　看起來，「云」或許會是一個解決辦法。因為云服務器可以容納規模足夠大的模型。如果能有一種算法，使這種模型具有學習能力，就可以將用戶的語義在云端服務器中進行分析，再借助網絡將指令和文本回傳。

　　儘管可以用語音操作的手機、PC甚至汽車都離我們不太遠了，但要讓這項技術真正達到善解人意的程度，還需要很長一段時間。

　　還是先慢慢折騰Siri吧。

PermaLink: https://articles.zkiz.com/?id=35296

智能語音搶灘中國：用聲音控制一切？

http://www.infzm.com/content/78973

蘋果公司智能語音工具推出漢語服務之前，以科大訊飛為首的本土公司大刀闊斧搶佔市場份額，語音產業鏈雛形初現。但是他們無一不是「摸著石頭過河」，盈利模式尚不清晰。

「我餓了。」

「餓了就趕緊吃東西啊。」

「不知道吃什麼好。」

「這個嘛，那我就推薦你吃一兩塊黑巧克力，它能迅速緩解飢餓感呢。」

「我不愛吃巧克力。」

「此題甚好，我卻不會，待我加緊學習了再來答你。」

這是在手機上安裝一款名為「訊飛語點」的國產智能語音應用軟件後進行的一段「人機對話」。你發出聲音指令後，它便可以幫你發短信和微博，定鬧鐘、查詢天氣航班、推薦附近好吃的餐館，甚至可以講故事、陪你聊天。

蘋果公司iPhone4S手機最大或說唯一的亮點，便是Siri這一智能語音工具。它讓機器彷彿擁有了思考能力。調戲Siri也一度成為網絡上的熱門遊戲。

但是過去兩年Siri並未給中國用戶帶來直觀的使用體驗，因為它一直以來只接受英語對話，且不能查詢中國大陸的各種服務信息，直到2012年6月蘋果公司才宣佈將推出漢語服務。這便給了一批中國本土公司絕佳的成長空間。在國內，訊飛語點、蟲洞語音助手、小i機器人、小唐龍、快說語音助手、 Ciriis語音助理、智能360、戀愛機器人柳柳等一批類Siri產品紛紛面世，欲跑在蘋果公司之前分得一杯羹。

2012年7月，訊飛語點因進入蘋果在線應用商店（Apple Store）不順暢而成為業界關注的焦點。看似簡單的「進店」問題，打開了中國智能語音市場暗戰的「潘多拉魔盒」。

尷尬的盈利模式

訊飛語點的開發者科大訊飛公司日前向外界大倒「苦水」：2012年6月20日，其向蘋果公司正式提交了訊飛語點iPhone版申請，15天後，蘋果給出了明確的「Rejected」（拒絕）回應，理由是缺少具體應用的演示視頻。科大訊飛對媒體表示了他們的擔憂：將於2012年秋季推出中文Siri的蘋果公司，似乎對類Siri產品的審核設置了障礙。

蘋果公司官方沒有回應這種猜測，也未回覆南方週末記者的採訪請求。不過據多位開發者稱，在調整了審核規則後，蘋果商店的審核期限普遍有所延長，從原來的7天增加到兩週左右。2012年7月9日上午，科大訊飛再次提交審核申請，目前正等待蘋果的回覆。

雖未有定論，但這款本土智能語音產品，在爭論中以「中國版Siri」之名迅速為公眾所知。「有一次開會碰到劉永好（新希望集團董事長），他看了我的名片後第一句話就說，訊飛口訊（另一款語音產品）是不是你們做的？」科大訊飛副總裁徐景明說。

科大訊飛創立於1999年，9年後在深圳創業板上市，招股書稱其佔據國內智能語音市場六成以上的份額。2010年它開始佈局移動互聯網，並發布了智能語音云，簡單來說就是一個融合了各種語音技術的開放端口，免費提供給開發者使用。訊飛語點只是科大訊飛使用了第二代開發平台的核心技術開發的一個示範產品。

而語音云平台的推出，使一條語音產業鏈逐步形成。根據科大訊飛向南方週末記者提供的數據，目前，免費使用其平台的開發者達到四千餘家。「蟲洞語音助理」的開發者們就是訊飛開放端口的使用者。蟲洞的機器語言甚至提供了四川話、粵語、東北話、湖南話、陝西話等方言版本。

「除了相互開放端口，我們還有一些深度合作。」蟲洞軟件創始人王向一對南方週末記者說，但其拒絕透露具體內容。

開放端口不僅培育了產業鏈上的草根創業者，一些早已成熟的互聯網產品，則把智能語音技術當作一個必備「插件」，融合到已有產品中。

「我們在整合二十餘種主流的應用，比如人人網、去哪兒網、大眾點評網、知乎、瓦力等，互相開放端口供對方使用。」徐景明說。

融入這條產業鏈的，並不侷限在移動設備。

2012年春節剛過，長虹就在其新品戰略上發佈了多款語音智能電視產品，這些最高售價近7000元的不同款式的智能電視，可以根據語音命令換台、調整音量，長虹給它起了個山寨名字「Ciri」；2011年11月，三洋推出了全語音系列的微波爐產品，售價同樣接近7000元，按下語音鍵，發出命令「幫我烤個牛排」，微波爐便開始運轉。這些廠商均是訊飛的合作夥伴。

雖然看起來很酷，但科大訊飛的盈利模式也有許多尷尬。眾彩電廠商和科大訊飛均是「一錘子買賣」，即一次性購買語音軟件或芯片，前者推出的所有應用皆為免費，只是智能產品本身的售價有一定幅度的提高。

而對於開放的語音云平台，開發者們也有一種擔心。「科大訊飛將來如果收取高額的使用費，對我們這種創業公司來說會是不小的壓力。」王向一說。

巨無霸公司來爭食

一些本土的巨無霸公司也正加入到智能語音市場上來。「我們和投資人聊，被問得最多的就是，如果百度騰訊做了這款產品，你們怎麼辦？」王向一說。

百度語音項目技術負責人在接受南方週末記者採訪時稱，百度剛成立了多媒體部，組建了幾十人的語音團隊，目前的產品有語音搜索、語音輸入法等。騰訊亦然，其QQ輸入法和搜索已嵌入語音功能。

不過與科大訊飛不同，這些大型互聯網公司沒有專業的智能語音技術專利，他們採取的是技術開發者合作的發展模式。在國內，提供核心智能語音技術的研究機構數量並不多，基本分成三類，一類是依託於中國科技大學的科大訊飛，一類是依託於中科院的中科信利等，此外便是北大清華的一些研究機構。百度和騰訊選擇的合作者是訊飛的競爭對手——中科信利。合作方式是由中科信利提供核心技術，再由百度、騰訊在此技術上包裝成產品。

在科大訊飛2011年報中，「能否吸引和培養高水平的人才隊伍」被列為公司今後發展的主要風險，訊飛為此正制定具有競爭力的薪酬體系和股權激勵機制。

競爭者並非只有本土企業。

早在1999年訊飛成立時，IBM、微軟、摩托羅拉、英特爾等就已經在中國成立了專門的語音研究基地，2004年才開始涉足語音領域的谷歌，在2009年11月發佈了中文語音搜索服務。本輪智能語音熱潮，成為國外企業再次搶灘中國市場的絕佳時機。

對科大訊飛等技術提供商而言，更大的威脅可能來自那個站在Siri身後的技術提供商——Nuance。Nuance成立於1992年，Siri的出現讓其從幕後走向台前。

在全球語音技術市場，Nuance佔據了2/3的市場份額，並為三星、諾基亞、摩托羅拉、HTC、福特等公司提供語音技術。2009年2月，其在上海建立了語音技術開發中心。

值得關注的是，Nuance於2011年11月推出針對中國市場的移動開發者項目（NMDP），這給了蟲洞等草根開發者更多的選擇空間。目前，Nuance已與一些國內企業達成合作，例如四維圖新計劃於新版地圖上就將採用Nuance的語音技術。

不過，擁有技術和人才優勢的Nuance，進入中國市場後也面臨諸多「不適應症」。2011年其剛推出語音識別搜索軟件——聲龍搜索（Dragon Search）時，合作夥伴為谷歌、Youtube和Twitter，而這些產品因為眾所周知的原因在中國根本無法使用。

Nuance大中華區總經理鄭裕慶日前在接受南方週末記者採訪時稱，為解決用戶體驗問題，優酷網、淘寶網、新浪愛問、大眾點評網等中國公司也已成為其合作夥伴，但南方週末記者的試用結果並不理想。

浪潮和泡沫

眾多競爭者的加入，讓智能語音應用日益普及。而這實際上僅是一個開始。

科大訊飛2011年的營收是5.6億元人民幣，依此推算，目前中文智能語音市場的盤子在10個億左右。

「這個盤子並不大。」中科信利語音識別實驗室主任顏永紅對南方週末記者說，「每隔五到十年，智能語音產業就會迎來一波熱潮，但事後都沒能有突破性進展。」而由Siri帶動的此輪「面向移動終端」的智能語音是又一輪浪潮，盈利能力還有待觀察。「整體而言，現在的泡沫有些嚴重，在核心技術還有待提高的背景下，語音產業短期內大規模提高營收並不現實。」

對以智能語音為主的新創企業，顏永紅同樣不樂觀，「語音技術的進步，需要漫長的時間週期，百度和騰訊有主要的收入來源，資金和技術的投入對他們不是太大的問題，但創業企業承擔不起。」

事實上，儘管科大訊飛不斷投入大量人力財力開發面向移動終端的產品，但目前這一塊的投入尚未給其帶來任何盈利，商業模式也還有待清晰。

目前科大訊飛的收入支撐，全部依賴企業和機構客戶，2012年7月9日，科大訊飛剛剛和公安部合作成立「智能語音技術公安部重點實驗室」，研發麵向重點人員聲紋庫建設所需的各項核心技術。2012年一季度科大訊飛營收為1.3億元，淨利潤將近2000萬元，分別同比增長51%和36%，財報顯示其同時將教育類產品（智能語音教具等）作為發展重點，這也是科大訊飛為尋找新利潤增長點「軟硬（軟件+硬件）兼施」的信號。

對於整個智能語音產業而言，真正面向大眾，才能獲得革命性的發展，而這面臨著技術和習慣的雙重挑戰。

「最難的還是使用習慣的建立。」王向一說，「調侃一下Siri可以，但大量依靠語音來完成工作，恐怕心裡還是不放心，目前的技術也不能完全做到。」

人們紛紛猜測，蘋果公司即將在秋天揭開真面目的Siri漢語語音服務，會帶來中文智能語音市場的又一次集體興奮嗎？

PermaLink: https://articles.zkiz.com/?id=35492

YY 語音是靠什麼打敗了 TS , UC 等語音軟件？

http://news.cyzone.cn/news/2012/10/15/233676.html

作為從TS到UC到YY的wow玩家清楚的感覺到了YY的成功和大家對他的態度的慢慢變化。

當時在玩wow的時候是TBC，當時還是屬於TS和UC並存的年代，幾乎沒有YY的存在。TS從來都是有最有優越感也在鄙視鏈的頂端的，因為好些的工會一般都會有錢，會買TS服務。證明工會的專業性，因為最早的一批工會都用的是TS（雖然當年是沒有別的太多選擇的原因）。

但是對於一般的非服務器衝進度的一般工會都會選擇UC，原因簡單，免費，大眾。但是UC從來都不是很好用的工具。最大的問題就是卡頻道，經常打著 BOSS，要換頻道。但是大家都還忍了。另外的其他工具當年也有，問題還是那樣，從來沒有被真正解決過。比如NGA跟178聯合出過一個工具叫什麼AK。夭折了，我覺得很簡單，NGA的用戶群是和推崇TS的用戶群應該是大部分重合的。

YY的出現，最開始幾乎是食物鏈的最底端的。在WOW當年簡直就是普通玩家都會鄙視的工具。和當年的血精靈這個種族一樣。代表著小白。周圍一些朋友只要聽說野團是用YY的，根本不去，工會還用YY的，根本不進。因為這個工具從名字YY和運營的網站多玩（和NGA的名字相比來說：艾澤拉斯國家地理）上就給人感覺的是不專業。但是從我用YY來看的確沒有出現過任何UC卡頻道的問題。慢慢的別的網遊貌似也開始被YY佔領，並且YY中還開始有一些K歌娛樂頻道。再慢慢大家就開始接受了，畢竟不卡，而且功能比UC更強大些，什麼頻道里面房間的主人什麼的，對於很多工會的確很有用。

廢話其實多了，我認為YY能活下來的原因就是：1.免費2.做好大家對這個工具最基礎的需求3.增強一些功能4.依靠多玩的宣傳。其實我看來11對戰平台也是這樣幹掉VS的。

PermaLink: https://articles.zkiz.com/?id=38696

分析師天敵：金融版虛擬語音助手Warren問世

來源: http://wallstreetcn.com/node/73662

華爾街將再次體驗到科技的神奇力量。一款類似蘋果Siri的語音助手Warren即將面世。Warren可以即時回答交易員一些複雜的金融問題，能夠幫助投資者節省大量查找資料的時間，將研究時間從幾天縮短至幾分鐘。最近，一群由前Google工程師和管理層組成的交易科技團隊研發出了一款虛擬市場助手“Warren”，它有點像蘋果的語音助手Siri，只不過是專門面向投資者。Warren可以即時回答交易員一些複雜的金融問題。 Warren的創造者是馬薩諸塞州一家名叫Kensho的創業公司。該公司周三表示已經收到了來自Google Ventures、Accel Partners和Devonshire的1000萬美元風險投資。之所以取名叫Warren，是為了繼承沃倫巴菲特（Warren Buffett）的精神。該產品正在由一些基金經理和研究團隊測試。目前，投資者們對將類似Siri這樣的語音技術用於金融服務非常感興趣，Warren正是其中的代表。據FT，Kensho公司表示，Warren可以即時回答100萬個問題，能將研究時間從幾天縮短至幾分鐘。到年底時其題庫將擴展至1億個，並且將可以對語音提出的問題作出回應。 Kensho的CEO Daniel Nadler表示：“投資者可以一邊看著電視里埃及抗議的新聞，一邊問Warren，當中東地區發生抗議時能源價格如何變化。” Warren可以回答以下類型的問題：“在四級臺風登陸美國後房屋開發商、建築商和水泥公司的股價是怎麽變化的？” Kensho是30歲的Nadler創辦的第一家公司，他曾經在美聯儲做過訪問學者。Kensho表示，Warren是基於納斯達克的OMX雲計算平臺，將在未來幾個月中向不同類型的投資者收取不同的價格。

PermaLink: https://articles.zkiz.com/?id=89987

科大訊飛的語音生態夢想

來源: http://newshtml.iheima.com/2015/0131/149042.html

黑馬說：讓機器能聽會說、能理解會思考是未來人機交互的發展方向，語音作為最被看好的人機交互方式，可進入我們生活的每個角落，有人類活動的地方就有語音需求，科大訊飛能實現其語音生態夢想嗎？

口述/劉慶峰科大訊飛創始人、董事長
整理/崔婧
編輯/蒲鴿

現在互聯網行業有個說法是，做平臺才會生生不息。我覺得，做生態和做開放平臺是差不多的意思。就我的理解，科大訊飛（下稱訊飛）生態架構應包括以下三方面內容：

第一，語音的特點決定了語音產業需要構建更好的生態。這是因為，語音可進入社會生活的每個角落，有人類活動的地方就有語音需求，甚至未來機器和機器通話也需要語音，從能聽會說，到能理解會思考。語音不是單一產品，圍繞它能夠衍生出很多應用。

第二，必須搭建平臺，以讓更多人通過自我創新從中獲益，因此未來構建的應該是一個合作共贏的生態體系。基於此，我們已將訊飛語音雲平臺開放出來，為平臺上近5萬個創業者提供核心技術，提供雲端各種資源存儲以及後臺分析能力，甚至把之後的變現能力也已開放出來。要打造的生態，必須具備可觀的成長空間，能夠為合作夥伴帶來全新價值。

第三，構建一個生態，就像培育一株大樹，樹的根系很重要，而訊飛，希望在語言和語音產業中扮演發動機的角色，不斷創造出全新技術。從語音合成，到訊飛語音雲，到聲文識別，到口語評測，到翻譯，到自然語言處理和圖像人臉識別技術，每一步都已證明，訊飛勝任產業發動機這一角色。

語音生態圈包括這樣一個鏈條：硬件研發—軟件研發—語音方案研發—集合方案後的產品制作—面向C端用戶的軟件開發—C端用戶的使用，同時C端用戶的使用又把信息從產品導向了語音，繼而導向軟件，再導向硬件。整個參與過程，因有了信息的流動，價值得以產生。價值何來呢？這就是訊飛語音雲平臺目前在做的事，即對用戶數據進行分析，為用戶畫像，以此指導訊飛的商業化。這是一個縱向生態鏈。

我覺得，在中國各產業發展過程中，未來一定要有一批自主創新企業在生態體系中掌握價值鏈主導權，這樣我們的產業才能持續健康成長。我希望，未來的訊飛能夠主導價值鏈關鍵環節，通過持續不斷的源頭創新，將這一生態做大。

最優化核心技術

訊飛對整個產業生態的貢獻，首先是iFly inside，即為廣大To B客戶提供最好的技術支撐。中國電子企業百強前10名中，有8家在用訊飛的技術。放眼各領域，目前國內已有2000多家龍頭企業在用訊飛的語音技術。

創業初期，我們也曾走過彎路。那時，我們下了很大功夫，開發出了一款電腦桌面軟件“暢言2000”，試圖把手寫輸入的隨意性、鍵盤輸入的準確性和語音輸入的高效性完美結合起來，然而產品叫好卻不叫座，市場反饋不如人意。之後，我們又嘗試用語音合成技術解決海量動態信息，並找到當時異常火爆的合肥及上海的168聲訊臺，成功進行了試點，結果仍是產品沒有辦法銷售出去。

屢遭挫折後，我意識到，訊飛直接做消費者市場有些理想化，於是重新調整了思路——讓有渠道、有市場、有技術的大公司去直接面對消費者，我們準備像Intel一樣，專註做好iFly inside。換言之，訊飛只負責開發引擎、語音合成和語音識別芯片，而應用集成則由下遊的開發商或客戶自己完成。

2000年初，訊飛順利通過了華為的技術測試，成為後者語音合成技術供應商。不久後，來自中興、鑫泰、神州數碼等大型企業的語音技術服務訂單接踵而至。這是訊飛企業發展史上的里程碑式事件。自此到當年年底，訊飛迅速發展了近50個穩定的TO B客戶。

之後，我們通過跟美國的Nuance公司合作，又切入到了語音識別技術領域。後來，我們感覺，訊飛自主研發的技術可逐漸超越對手，因此在2006年，我們告訴Nuance公司，不跟它合作了，因為我們要自己獨立研發。2年後，訊飛該領域技術已超越Nuance。

那時候，我們更多的是在技術上支持企業。基於用戶打電話訪問自己賬戶信息的情況，多家銀行陸續推出了電話銀行業務，但隨著客服成本越來越高，銀行希望用戶的一些簡單查詢能夠以機器答複替代人工，以減少坐席人員投入。國內最早有此需求的是中國工商銀行總行。當時訊飛的技術滿足了該行要求，成功中標。

為了推廣技術，我們還搞了一個語音應用行業峰會。我們把金融、證券、運營商等行業代表以及行業內信息化專家都邀請過來參加論壇。這個論壇一般圍繞兩件事情來進行，一是討論當前語音技術發展處於何種階段，一是為使用我們語音技術的企業（比如工總行、中移動）提供一個介紹經驗的場合，讓其他同行業夥伴了解我們的語音技術在這些企業應用的情況，這些企業也挺樂於分享基於語音技術推出的一些創新型項目。

在行業內傳播開來後，我們也定期印制期刊寄給這些企業，主要內容包括訊飛的應用案例，語音技術處於什麽狀態，語音技術在哪些行業已經產生了哪些新應用等。這些企業的老板看到信息化專家的觀點之後，就會琢磨：我這個行業是不是也可以使用訊飛語音技術降低成本、產生價值，或者創造一些新的效益呢？

我們的客戶主要定位在中大型企業，因為訊飛提供的技術往往有較高門檻，企業需要先花費高額資金購買訊飛的技術，才能再去開發自己的應用。

在構建訊飛生態系統時，我們更為關註用戶使用習慣和技術匹配度。技術到哪一步，能夠打動什麽樣的用戶群，這需要有一個非常切合實際的認識並不斷進行摸索。當然，真正難突破的是源頭技術的創新，之後才是應用的創新。這就好比，如果沒有3G、4G等基礎通信技術的發展作為支撐，就不會有現在移動互聯網對傳統產業模式的顛覆。但很多人都不去想未來創新的真正源頭到底在哪兒。

順勢搭建平臺

在提供核心技術的基礎上，我們又進了一步，搭建了雲平臺，為所有創業者提供開發平臺。

這是有原因的。自2007年開始，互聯網應用逐漸興起，我們陸續收到了來自中小企業和開發者的很多反饋，他們很想使用訊飛的技術，但使用成本太高。

這也不難理解。一般而言，企業開發應用前，需要先花30萬元買硬件，花30萬元買平臺，再加上其他成本，沒有100萬元預算，根本沒辦法開展業務，但這一投入對於中小企業和開發者來說，過於高昂。

1年後，我受到了如下啟發：用戶擰開水龍頭，就可以接到水，但他不見得非要自己建個小型自來水廠。有了這樣一個思路，訊飛借助互聯網搭建了一個雲平臺。在使用核心技術外，該平臺可降低創業者初始開發門檻，產品開發出來後，他可直接依托訊飛語音雲平臺對外提供服務，免去了前期在服務器上的資金投入。

對於我們自己來說，通過雲端，可以自我學習和進化，後臺數據越多，我們的識別準確率越高。建這個平臺的時候，我們也不知道用戶數可以達到目前的近6億，下載量可以達到目前的9億多。

2010年底，我們正式發布了訊飛語音雲以及語音輸入法體驗版。站在發布會現場進行演示時，我很緊張，擔心出岔子。因為當時我們的團隊對於做平臺還沒有太多經驗，輸入法性能不太穩定，在發布會之前，已出現過網絡超時等問題。不過，好在我們平臺技術人員為此熬了四五個通宵，這通宵沒有白熬，當天的演示很成功。

發布會後，訊飛用戶數增長非常快，這是我沒有想到的。但過了幾天，用戶流失率開始直線下降，突然間幻覺破滅了。我開始擔心用戶不再關心語音，開始懷疑該產品能否被用戶一直使用。後來我們分析了原因：用戶很可能只是覺得好玩才下載的。從讓大家覺得好玩到讓大家覺得好用，對我們來說，是一個很大的跨越。我們開始註重產品的實用功能，比如打電話、發短信、聽音樂等。此後，用戶每天使用量開始慢慢提升。

訊飛是一家傳統的TO B企業，主要客戶是中興、華為、聯想等電信設備商和終端商，缺少對互聯網用戶的開放經驗，語音雲發布之後相當長一段時間都沒有多少用戶，半年只積累了100萬用戶，而我最初的預期是，一天就可以有幾萬的用戶增長，落差非常大。為此，我們去調研，結果很多用戶反映，輸入法的識別率根本不行，看到網絡不停地轉，但數據結果就是出不來。

這是語音技術準確率的問題。在網絡通暢的情況下，比如在試驗室內或特定衍生場景下，語音識別效果很好，但大規模應用時，準確率如何保障，我們缺乏經驗，沒有對移動網絡狀況予以優化。這對我們是一個技術上的折磨，當時很受打擊。

但我相信，語音應用一定是未來手機交互最重要的方式，所以我們一步步對產品進行了優化。一段時間後，用戶跟我說，訊飛的產品效果比以前要好很多，我聽後特別高興。

在過去的10年，通過iFly inside，我們發展了2000多個開發者，通過語音雲，在2年內已發展合作夥伴5萬多個，訊飛正從一個單一的核心技術提供商向基於雲端的開放平臺型企業轉變。

合作分享以共贏

平臺搭建完成後，訊飛將平臺向上下遊開發者開放，所有擁有核心技術的開發者都可以把自有技術放到這一平臺上來。

比如圖像識別技術。通過和香港中文大學教授湯曉鷗以及他的研究團隊合作，我們將人臉識別技術應用到了訊飛語音雲上來，使之識別準確率提高到了99%以上，比肉眼識別更精準。湯曉鷗是該領域頂級專家，精準人臉識別技術，實況人口流量狀況技術、照片自動人臉設備分類技術等，均為湯曉鷗及其團隊的科研成果。

我們還和哈爾濱工業大學合作了自然語言處理技術，推出了“哈工大訊飛語言雲”。哈工大“語言技術平臺LTP”是為開發者提供包括中文分詞、詞性標註、命名實體識別、依存句法分析、語義角色標註等自然語言處理技術服務的平臺，已經被500多家國內外研究機構和企業使用，其中百度、騰訊、華為、金山、中國科學技術信息研究所等多家大型企業和科研機構為付費用戶。目前它已成為國內外最具影響力的中文處理基礎平臺。

我認為，人工智能是未來真正可出現顛覆性產品的領域。我對這一領域的發展時刻保持著警惕，所以2014年，我們專門啟動了“訊飛超腦計劃”。該計劃聚集了來自語音及語言國家工程實驗室、清華大學、加拿大約克大學等10多位人工智能領域頂級專家。在實現了讓機器能聽會說之後，我們夢想是，讓機器能理解、會思考，而它的知識不是人類灌輸的，而是自己通過不斷學習獲得的。

事實證明，合作夥伴的先進技術可以對訊飛雲平臺的核心技術進行補充。開發者基於這一平臺可以不斷推出各種新應用，而他們之間，也借此得以相互關連。我們每月召開的訊飛語音雲沙龍都會邀請一些創業者來做經驗分享。

比如教育領域。現在，每天有7000多萬師生在用我們的教學產品。老師們的課件內容可以分享給訊飛，其他創業者可以在該平臺上共享使用。2013年底，我們和外研社合資成立了北京外研訊飛教育科技有限公司。外研社擁有國內大學英語教材60%以上的市場份額，在它將英語教學應用面向大學生推廣後，老師、學校、出版社以及更多第三方推廣教學應用的機構都可以在這個平臺上使用。

音樂領域亦然。目前全國唯一打通三大運營商的音樂搜索和音樂發布平臺就是訊飛做的，時下用戶已達9千萬，其中收費用戶上千萬。黃梅戲等地方戲曲，可以通過我們的音樂平臺推銷給各大運營商。而做音箱、玩具等其他產品的合作夥伴，可直接將該黃梅戲放到自己的個性化產品中使用。在我們的平臺上，大家可以相互促進、合作共贏。

聚焦爆發點

在上下遊開發者都已加入生態體系後，我認為，我們有必要在該體系中打造幾個近期可以引爆的重點領域：

第一，智能手機領域。我們除了自己主導的產品訊飛輸入法、靈犀助手之外，還形成了以訊飛、運營商、手機廠商為核心的生態體系。我們希望能有更多人加入進來。手機平臺是用戶根據宣傳引導沖動性消費的平臺，我認為，訊飛與中移動、各手機廠商的戰略聯盟會拿到最大份額。我們語音雲的用戶規模和創業項目數量都在行業中遙遙領先。訊飛輸入法排名在2013年就已超過QQ輸入法，2014年又已超過百度輸入法。根據最近12個主要應用商店語音助手下載量排名，前5名中，我們一家超過了另外4家的總和。

第二，教育領域。我們和基礎教育出版行業的龍頭——人教社合作，正在進行教學平臺、網絡學習、電子書包等一系列數字化產品的聯合開發和應用推廣工作；我們與北京師範大學合作，共同創建了基礎教育質量檢測協同創新中心，並推出了教育評價雲。總之，我們和出版社、大學都已形成很好的合作體系，這個體系也已開放給老師、第三方夥伴以及創業者。

第三，智能家居領域。我們跟北京、廣東等地方廣電，三大運營商，海信、長虹、TCL等國內前六大電視機品牌商都有合作。我們不光是讓用戶通過語音更為方便地看電視，還要向創業者開放，他們可以在上面開發兒童學習、故事頻道等應用。訊飛與中移動聯合推出的智能語音助手靈犀3.0，已可操控智能家居設備。年輕人裝修房子買家具時，只要按照我們建議的型號完成空調、微波爐、窗簾、電飯鍋等物品的采購，那麽他家里所有物品都可以用手機操控，甚至在路上就可以打開電飯鍋，提前把飯煮好。

基於中移動無線音樂基地大量正版音樂資源，我們與之聯合推出了訊飛智能音箱。不過，目前發展得如火如荼的智能家電產業，廠商產品存在接口不一等問題，沒有明確統一的行業標準，如果產品來自不同品牌，則很難建立完整的智能家居體系。未來，語音將進入到智能家居的各種各樣的設備中，如果能把設備、語音以及大數據相關的接口都打通，創業者就能共享一個統一的平臺，否則他就會被層層壁壘擋在創新門外，而這對整個產業生態體系的建立是非常不利的。

2014年，訊飛重要工作之一就是推動中國智能語音行業標準的落地。早在3年前，我們就已牽頭成立了語音產業聯盟，和運營商、電視機廠商、科研單位、語言技術研發企業以及各高校共同搭建了一個產業上下遊交流的平臺，得到了工信部的大力支持。

第四，車載領域。比如，奔馳汽車在時速超過100公里時，噪音很大，這時只有訊飛的技術能夠流暢使用。目前我們已和奔馳、寶馬、一汽等國內外汽車廠商，國內外多媒體廠商、導航廠商，甚至是整車廠商形成了一個體系，以加速推動智能語音在車載終端的深入應用。

本文不代表本刊觀點和立場。

PermaLink: https://articles.zkiz.com/?id=129924

高德公布新“聲音”戰略推“周星星”語音導航

來源: http://www.iheima.com/news/2015/0922/152086.shtml

9月22日，高德在京召開發布會，宣布在未來一年內，將把“聲音”作為重要的產品戰略方向，圍繞“更專業、更懂你、更快樂”的理念打磨高德地圖的語音能力。

同時，高德地圖還公布了全新上線的“周星星經典語音包”，由周星馳“禦用”國語配音者石班瑜為高德錄制。這也是繼林誌玲、郭德綱之後，高德地圖推出的第三個明星導航語音。

高德副總裁董振寧認為，數據是互聯網地圖的基石，產品代表服務用戶的能力，而聲音就是讓用戶享受服務時的最佳溝通介質，可以將地圖“人格化”。“新的一年里我們將大幅強化‘聲音’，為用戶提供更人性化的出行體驗。”

高德方面透露，今年林誌玲和郭德綱的兩個新導航語音包上線後，都帶來了極大增量：林誌玲“性感語音”使得高德地圖下載量超過平日的6倍；而郭德綱的“段子語音”則幫助高德地圖的新增用戶速率提升230%，每日活躍用戶增加36%，同時在蘋果App Store上提升到TOP2的位置。

而高德也籍此決定將聲音升格為下一階段發展的新戰略。高德地圖將圍繞“更專業、更懂你、更快樂”，對語音進行全面升級。

除了帶來更多快樂的周星星語音導航之外，高德地圖也將在“更專業”和“更懂你”兩個層面對語音功能做了大幅升級。

“專業”上，高德地圖完善了更多細節。其最近推出了“脫屏導航”的概念，希望讓用戶無論是在公交、步行，還是自駕出行過程中，能做到“不用眼睛看”、“不用手操控”，只憑耳朵聽就能完成整個出行過程；其景區語音導遊功能，能根據用戶所在位置，自動識別並播放相關景點的語音解說。

“懂你”指的是高德的“語義解析”模塊，整合進入語音搜索和語音控制功能中。據高德方面的描述，在新版的高德地圖中，用戶只需用最自然的語音描述需求，就能被“懂你”的語義解析技術自動理解，完成相應操作。例如在導航過程中，只需說出“高德高德”就能激活語音控制，說出“聲音太小了”這樣的白話描述，高德地圖就會自動為你將導航音量調高。目前高德地圖Android版本已上線該功能，iOS新版本仍在審核中）。

董振寧表示：“隨著新‘聲音’戰略的不斷深入，相信高德很快也將成為一個更有‘個性’的人，為用戶提供更人性化的出行導航服務。”。

PermaLink: https://articles.zkiz.com/?id=161549

WOW!以色列語音秘書遇到嘈雜環境就失效？比Siri還厲害手機竟可讀唇語

2016-03-21 TCW

請語音助理Siri或Google Now回訊息、查資料，在安靜家裡不易失敗，但在路旁、電音派對上，這些虛擬助理卻很可能聽不清楚你的指令。除非，你的手機能做到只讀你的唇。

一般語音辨識技術仰賴收音麥克風，其降噪功能仍無法完全區別目標人聲與其他聲源，達不到預期的聲控效果。以色列公司VocalZoom研發一種低功耗的雷射光束，透過感應器打在說話者臉上，可蒐集嘴唇、兩頰、喉嚨發出的振動頻率，結合收音麥克風、消除無用噪音，精準判斷你在說什麼。

根據VocalZoom與中國上市公司科大訊飛合作測試，VocalZoom感應器裝入科大訊飛的耳機麥克風後，自動語音辨識效能提升達五○％，尤其在大開車窗的疾駛車輛中改善效果更好。

《經濟學人》指出，VocalZoom。目技術未來有望整合在車聯網。或許有一天，美國科幻影集《霹靂遊俠》場景將成現實。（文·陳筱晶》

撰文者陳筱晶

PermaLink: https://articles.zkiz.com/?id=190156

語音搜索是人機交互的未來嗎？

來源: http://www.iheima.com/space/2016/0324/154852.shtml

導讀 : 跟機器說話，聽起來好酷！

人工智能成為熱門話題，在如今這個科技飛速奔進的時代，不知你是否想過，也許可以換一種智能化的方式完成搜索——比如，跟機器說話。

語音搜索技術——很好理解，通過語音完成搜索行為。

不同於其他人工智能技術的亦真亦幻，語音搜索是那種直覺上理應擁有的技術，它在幾十年前就是科幻作品中的標配。然而作為人類思維和知識的基本載體，語言（尤其漢語）的獨特讓其成為AI歷史上最困難的方向之一。不難理解，從戰勝李世石便知，機器無比擅長邏輯與程序性的單一任務，但人類自然語言並非形式語言，長久以來，機器無法分辨人類語言——甚至許多時候唯有母語使用者才能體察到的奧妙，這也讓語音搜索變得艱難。

但它必須進步。無論如今智能手機的井噴亦或未來整個IOT產業的崛起，人們都在企盼一種與機器更自然的交互方式，而語音搜索是最佳入口。這個世界上的科技巨頭無一不在強化語音技術的研究，谷歌某位資深工程師就曾表示，人工智能下個里程碑就是自然語言理解。

嗯，語音搜索並非“語音+搜索”1+1式的簡單串聯；語音技術，自然語言理解以及智能搜索的結合意味著一種趨向於完美的搜索樣態，它將帶動更龐大的搜索和服務生態。

更好的溝通：機器理解人類背後的智能技術

先來說說這項技術。

語音搜索是一項集成了語音識別，多輪理解，語義分析等在內的複合型人工智能，其實現過程要比封閉式規則的圍棋艱辛許多，它要求機器從思維，對話，情感等維度探尋人類充滿不確定性的複雜行為——溝通。

語音識別簡單講，即是針對複雜多變的語音搜索場景，通過深度挖掘大規模用戶行為數據，利用深度學習技術，理解用戶的表達，同時針對漢語一音多義的獨特性，結合用戶個性化信息及語義環境在同音候選中優選更可能為用戶需求的結果。

除此之外，人類正常溝通中無法避免的信息折損，也使得機器必須掌握多輪理解——在語音搜索中讓人與機器基於上下文語境多輪交談。具體而言，基於語義結構理解，指代消解等技術，理解用戶會話的上下文信息，實現對話的補全與替換，從而真正理解用戶需求。

當然，除了多輪理解，為了貼近更自然的對話方式，語義理解技術就變得頗為關鍵，這要求語音搜索必須包含對需求的理解和對數據資源的整合。這意味著機器可以完成某種推理和對於推理的驗證。譬如，當你發出“我要吃飯”的語音時，機器可以自動領會意圖，直接進入與餐飲有關的界面。機器精準理解語音背後的含義頗為不易，而也尤為重要，唯有突破了語義理解的門檻，機器才能進一步理解人類真實意圖，從而完成更為友善的交互。

更好的未來：人與機器高效與人性化交互

確實，每個心向未來的人，都在渴念人工智能的盡早落地。語音搜索這種非物理接觸式的人機交互方式，究竟意味著什麽？從最基礎的方面，它可以讓那些不會打字、不愛打字，甚至不屑打字的群體用比打字更迅捷自然的方式獲取信息與服務，數據顯示，使用文本輸入速度為1s/字，而使用語音搜索輸入速度為100ms/字。

可以肯定，應用場景的變化無常無疑會讓語音搜索將日趨成為主流。根據百度提供的數據，語音搜索的整體用戶在2015年增長超過3倍，而早期嘗鮮用戶一旦用上語音搜索，其後產生的黏性非常之高，而在粘性用戶當中，有60%的搜索需求都會使用語音進行表達。

毫無疑問，年輕用戶的搜索行為正在向語音靠近，尤其對於生長在移動屏幕之中的90後和00後用戶，與機器“對話”稱得上是某種天經地義。就像成年人驚訝地發現，兒童和嬰兒對於iPad等屏幕毫無違和感的本能觸碰，當語音技術日趨成熟，90後與00後也將與機器的交談視作生活本身——因為他們知道，無論是知識還是娛樂，只要你說出來，就能迅速找到想要的一切，何樂不為？

趨勢：順應人性的智能化生活

拋去技術不談，至少在現階段，不少成年用戶對語音搜索的本能排斥大概可歸為兩點：擔心隱私（理性角度）以及感覺“怪怪的”（感性角度）。關於第一點，技術就可以解決，語音搜索技術完全可以讓用戶在公共場合用只有自己才能聽見的微弱音量與機器對話。我想重點講一下第二點：觀念。

在許多特定的技術和觀念拐點，年輕人永遠站在正確的方向，倘若你對一代人的集體行為滿懷不解，那麽只有一個原因：你out了。技術革新與人類所謂的“主流觀念”之間的撞擊聲，簡直是科技進程之中的副本。每一項革新技術的誕生，似乎都是一次對過往主流觀念的更新。譬如微信普及之前，對著機器說話經常被視作怪咖；而手機能拍照之前，人們經常對自己會被陌生人錄像而敏感，但從敏感到無感，人們只用了短短數年。因此完全可以想象，語音技術的“破冰期”將無比短暫，因為年輕族群早已習慣於此。

哪怕從客觀角度，趨勢也擺在那里。智能手機只是未來的一小部分，新湧現出來的科技將讓更多人“被迫”轉向語音搜索。智能設備日趨豐滿，無論智能硬件，智能家居，無人汽車，還是智能機器人，不太可能指望全部通過文字與之溝通，而語音搜索能提高效率，以更順應人性的方式體驗智能生活。

縱觀整個人機交互的歷史，一個清晰可見的脈絡是：主流計算設備的每次形態改變，必然伴隨著人機交互難度下降——就像鼠標和Windows 圖形界面之於個人電腦，電容觸摸屏和iOS（及安卓）操作系統之於手機，語音搜索作為一種革命式的人機交互方式，在很大程度上消減了人類與機器之前的隔閡。

而從某種感性層面來說，倘若語音搜索有朝一日成為主流，那麽它勢必將人與機器的交流鍍上一層情感色彩，它會加劇人類對於機器的依偎。人與機器共同進化以聽懂彼此語言為前提，我堅信，以語音搜索技術為開端，人類終將打造出《星際迷航》那般終極意義上的移動設備。

還是那句話，在技術領域，未來十年將會令過去的十年黯然失色，而相信語音搜索技術的普及，即是通向那個更美好未來的重要一瞬。

標簽語音搜索未來交互

PermaLink: https://articles.zkiz.com/?id=190307

被互聯網女皇看好的語音，將成為巨頭爭奪的下一個焦點

來源: http://www.iheima.com/zixun/2016/0606/156332.shtml

被互聯網女皇看好的語音，將成為巨頭爭奪的下一個焦點

羅超 2016-06-06 14:41

被互聯網女皇看好的語音，將成為巨頭爭奪的下一個焦點

語音即將成為最重要的交互方式之一，語音技術從量變到質變的引爆點已經到來。

KPCB合夥人、享有“互聯網女皇”稱號的瑪麗·米克爾的互聯網趨勢報告在近日發布。毫不誇張地說，這份報告是互聯網行業分析的“超級碗”，它用200多頁的Keynote濃縮了全球龐大而複雜的互聯網發展現狀和趨勢，是互聯網從業者、投資人以及想要窺見互聯網風貌的外界人士不可多得的參考資料。

有人說，今年報告亮點不多，在我看來，亮點卻非常之多：不僅覆蓋了手機、電商、社交、廣告等基本面，還點名了移動營銷、網絡直播、智能汽車諸多正在崛起的所有新興領域。與IDC等機構報告不同的是，女皇報告更側重於行業現象概括和行業趨勢展望，事實證明，她對未來趨勢的評判準確率相當之高。而今年報告最大亮點在於：語音。213頁的Keynote，23頁給了語音，篇幅遠遠超過汽車、直播等領域，僅次於每年的重頭戲即“營銷”的31篇。

女皇認為麥克風正在取代鍵盤

瑪麗·米克爾認為，語音正在被重塑，成為人機交互的新範式，在過去75年里，每10年就有一次人機交互的重大革新，人類對機器的操作，從物理手柄按鍵，到物理鍵盤鼠標，再到觸摸屏，而現在語音成為了重要的交互方式。

2016年互聯網女皇報告zh版_000114

在其看來，語音交互相對於傳統交互而言具有以下特點：輸入更快速，人類每分鐘可說出150個單詞，打字卻只能完成40個單詞；使用更簡單，不需要用手和眼，時間更及時，不需要任何學習；更加個性化，機器可基於上下文、環境、位置、語調等大環境更好地理解人類的需求。從技術角度來看，語音計算具有成本低、尺寸小的特點，特別適合物聯網。

為何語音現在會爆發？瑪麗·米克爾認為：

1、技術成熟是核心原因之一。如果語音識別準確率從95%提升到99%將從量變引發質變，即“爆發點”到來，語音識別準確率已從2010年的70%上升到今年的90%，百度、谷歌、Hound等平臺的語音識別準確率已超過90%，針對戶外嘈雜環境和講話者特性的語音識別是下階段的攻克重點。

2016年互聯網女皇報告zh版_000119

2、語音交互應用正在日益變多。語音搜索正在蠶食搜索份額，百度、谷歌的語音搜索在近十年來均取得了數十倍的增長，其中安卓、百度和必應語音搜索比例分別達到20%、10%、25%；以Siri為代表的語音助手正在快速普及，美國用戶使用這類工具的比例，已從2013年的30%增加到2015年的65%。因為語音能夠解放雙手和眼睛，人們越來越多地在車里、家里和隨身使用語音。相關數據顯示，從2014年到2016年間，全球API調用百度語音識別以及文本轉語音（TTS）的每日使用量急速攀升，百度語音在百度產品中使用率快速增長。

2016年互聯網女皇報告zh版_000125

3、語音吸引更多第三方開發者。開發者擁抱語音大幅增加了支持語音交互的軟件和硬件，女皇重點闡述了Amazon眼下炙手可熱的硬件：Echo。其內置了Amazon Alexa語音助手，目標是占領家居、汽車、手機的麥克風，還能智能購物。這款產品銷量已突破400萬臺。女皇更是大膽指出：語音拐點已經到來，在2015年智能手機銷量下滑之後，Echo銷量或將騰飛。

2016年互聯網女皇報告zh版_000129

英雄所見略同。在瑪麗·米克爾預測語音會成為核心交互方式的同時，科技巨頭早已在這一領域大力投入。2014年百度世界大會上李彥宏預測：五年內語音和圖像搜索比例有可能突破50%。百度在人工智能上一項顯著的進展便是基於深度學習的Deep Speech在噪音環境下的語音識別效果超越了谷歌，這一研究成果在瑪麗·米克爾的報告中被提及，該項技術已成功應用到百度語音搜索上。

目前，百度語音搜索已通過人工智能做到了“聽”和“說”，而且還嘗試完成人類複雜的行為——溝通。集成語音識別、語義理解、深度問答、知識推理、多輪對話、智能摘要、情感分析、語言生成、語音合成等能力於一身後，相較於鍵盤輸入，百度語音搜索已經能夠滿足用戶的多種複雜需求，引領人機交互邁入聽說時代。

此外，不久之前的谷歌I/O大會上，最亮點產品是類似於Echo的Google Home，其內置了Google Assitant語音助手。而在即將召開的蘋果開發者大會WWDC上，iOS 10最大亮點很可能會是Siri。語音是下一站，已成全球共識，“麥克風+觸摸屏”取代“鍵盤+鼠標”，已是大勢所趨。

語音正在多個領域全面開花

“女皇報告”重點提到了語音的三大典型應用：搜索、助理和Echo，一個重要事實是，語音不只是在這些領域發揮作用，在許多領域，它都比鍵盤越來越有存在感。

1、語音搜索：移動搜索的重要分支

谷歌、百度、Bing，全球主流搜索引擎的語音搜索比例都在逐步增加，麥克風圖標變得跟搜索框一樣重要。搜索引擎來自移動端的搜索流量均已超過50%，人們在自帶麥克風的移動設備上使用語音更方便，而在移動場景下打字並不方便。有報告指出，百度語音搜索的整體用戶量在2015年增長超過3倍，用戶中的90後和00後的人群占比接近50%，百度語音搜索已經成為眾多年輕人移動互聯網生活的標配，優勢在於省去了中英文輸入法切換的繁瑣、支持口語化多輪交互、能夠提供貼心的語音播報和有聲搜索。

2、語音助手：不再是被調戲的玩具

幾年前，Siri這是一個被調戲的玩具。現在，它可以理解很多命令，比如設置鬧鐘、添加日歷，打開App等，語音助理已完成從玩具到工具的蛻變。除了Siri之外，Windows內置的Cortana、Google Now升級而來的Google Assitant，以及百度、搜狗、科大訊飛等公司均推出了自己的語音助理軟件。

以百度推出的度秘為例，已經接入到手機百度APP，用戶可在手百端直接調用，使用語音對話的形式享受點餐、購物、路線、訂票等多項生活類服務。可見要做好語音助理並不容易，除了語音識別和語義理解之外，它必須要能“完成任務”，而這需要獲取其他設備和應用的控制權，而這一點只有巨頭才能做到，創業型玩家基本已經消失。

3、語音通訊：不再是昂貴的溝通

微信能夠成為超級App，一大重要原因在於它支持語音通信，類似於對講機的語音交互，給了人們在傳統手機通訊下前所未有的體驗。需要流量，但相對於傳統電話而言已很廉價。事實上，傳統電話也已被互聯網化，有信等網絡電話App的崛起表明，人們未來只需要為語音通訊花很少的錢。女皇說，語音是最有效率的交互方式。除此之外，語音還是最自然、最簡單和最有效的溝通方式，免費的語音通訊將會成為大勢所趨，運營商正在被逼著依靠販賣流量謀生。

4、語音內容：不再是冷門的形式

微博剛剛興起時，許朝軍做了一個啪啪，要做語音版的微博，後來發生的事情大家都知道了。不過，語音內容正在卷土重來。最近在行做的“分答”十分火爆，這款App集合了語音、打賞、共享經濟諸多新興模式，讓知識分享前所未有的有趣。而在去年，喜馬拉雅等網絡電臺崛起了。

這些現象均表明，“聲音”依然會是十分重要的一類內容形態，人們不會浪費耳朵這個重要器官，在許多場景下，“語音消費”都更適合，比如開車時，高德地圖與林誌玲等明星合作的語音導航就取得很好的市場反饋。在許多垂直領域，例如教育，語音技術同樣在體現其重要性，比如通過語音技術做口語訓練。就是說，不只是“麥克風”變得重要了，“喇叭”也在變得重要。

1464577593220

5、語音硬件：隨時待命的助理

“女皇報告”說，Amazon Echo將要起飛。除了Echo之外，Google 已推出Google Home硬件，擁有Siri的Apple很可能會發布類似產品。為何“語音助理硬件”會普及？為什麽不直接用手機上的Siri等助理呢？因為手機是個人設備，並不適合家庭成員共享；而當前的語音技術，讓手機支持“隨時待命可被喚醒”會很耗電，基於Echo等家用設備不需擔憂這個問題。

正是因為此，類似於Echo的產品將成為接下來的爆點，國內巨頭同樣在布局，京東已推出叮咚智能音箱，阿里巴巴聯合科大訊飛推出了“飛兒”，語音技術成熟的百度近日推出的度秘實體機器人也成功入駐肯德基，通過多輪交互和語音語義理解等技術為用戶完成智能點餐的過程。除了專用的語音助理硬件，語音與電視、與汽車等硬件的整合也會加速，國內的“Echo”大戰即將爆發。

正如女皇報告所指出的那樣，語音即將成為最重要的交互方式之一，語音技術從量變到質變的引爆點已經到來。除了交互之外，語音還將在搜索、內容、通訊和硬件等領域全面開花，“麥克風”變得重要，“喇叭”亦將變得重要，關於聲音的戰爭已經拉開序幕。

（本文為投稿文章，作者羅超，微博@互聯網阿超，微信：luochaotmt ）

[本文作者羅超，文中所述為作者獨立觀點，不代表i黑馬立場。推薦關註i黑馬訂閱號（ID:iheima）。題圖來自123RF。]

語音巨頭

贊(...)

文章評論

匿名用戶

發布

PermaLink: https://articles.zkiz.com/?id=199003

ZKIZ Archives @ 2019

📖 ZKIZ Archives

Random Tags