📖 ZKIZ Archives


語音識別「在路上」

http://www.cbnweek.com/yuedu/ydpage/?raid=1892
 「鋼鐵俠」Tony Stark有一位智能管家,人們看不見它,它卻無所不知,是居家旅行、拯救世界的必備良物。


  它滿足了人類對於「語音識別」技術的終極幻想。你可以把這位智能管家想像成Siri的未來升級版,它不但能夠完美執行指令,還能根據設備的工作情況甚至主人的心情提出建議。


  下面回到現實。Siri眼下能做的最棒的事情,就是幫忙預訂某個酒店房間—諸如此類。不過不用悲觀,還有個好消息是,語音識別已經成為眾多科技公司的優先發展計劃。


  2012年3月,一項能夠即時語音翻譯26種語言的技術被微軟研究院推出。與其他語言翻譯產品不同的是,這項技術除了翻譯多種語言之外,輸出的語音還 可以模仿說話人的音色和音調,使它們聽起來接近使用者的真實聲音。當然了,現在它聽上去還有些生硬,感情色彩還不夠豐富。


  這項技術的第一步仍然是語音識別,後者正被越來越廣泛的應用在眾多不同的領域。微軟用它來翻譯,在將語音進行識別之後,變成一項名為「跨語言的文語轉 換」(Cross-Language Text-to-Speech,簡稱TTS)的技術。使用者只需要預先錄下幾十分鐘的母語作為訓練語音。軟件在進行識別、翻譯之後,就可以模仿說話人的音 調和音色將翻譯好的、其他語種的文本說出來。


  此前早已有蘋果Siri,它一度是iPhone 4S手機用戶的最大樂趣之一。另外在Android 4.1系統中,Google Now除了讓用戶實現語音搜索,還包含一個自動填充卡片的功能。當用戶搜索了一個地點、天氣或是航班時間,Google Now會自動建立一個卡片存儲細節,供用戶以後查閱。


  人們對於語音識別的迷戀由來已久,甚至在計算機發明之前。早期的聲碼器,可以看作是語音識別技術的雛形。1920年代生產的「Radio Rex」玩具狗是眼下有據可查的最早的語音識別器,當這隻狗聽到自己的名字時,它就會從底座上彈出來,嚇人一跳。


  作為諸多後繼的複雜應用的第一步,語音識別—讓機器讀懂你在說什麼,迄今為止仍然是一個大工程。你甚至也可以把它視為眾多語音類智能應用向前發展的絆腳石之一。


  現在語音識別的主流技術,由數據統計模型和算法組成。如果把數據統計模型比喻成一個倉庫的話,那麼算法則是一隻機械手臂,從倉庫中「抓」出合適的數據進行匹配。算法包括了對數據存放位置的判斷等行為規則。數據越多,模型也就越大。


  再簡單一點說,當你說了一句話之後,算法會從數據庫中抓取可能最符合你意思的那句解釋。因此模型中包含的數據越多,通常也就意味著識別能力越強。但問 題來了。就像沒有一個倉庫可以存放世界上所有的貨品一樣,沒有一個模型可以解釋所有數據。人們可以說任何話,因此數據變化無窮。


  所以你應該不難理解,以往一些初級的語音控制類的應用,比如導航、語音撥號等等,人們要啟動服務必須按照產品手冊的說明,完整地說出固定格式的句子,才能被機器所識別。在這些應用中,數據庫是簡單而又原始的,在識別過程中也沒有太多算法可言,它們只是負責「搬運」。


  包括Siri和微軟TTS在內,語音識別被發展到了眼下的第二個階段:它們可以通過一定的規則和算法,將那些事先沒有包含在數據統計模型中的「話」也解釋出來,並且足夠簡單。


  要實現這一點,仍然必須要有一個基礎的數據庫。在微軟的TTS技術中,那幾十分鐘的「訓練」,也就成了一種蒐集數據建立數據庫的方式。建立數據庫的好 處在於,「它不能夠保證你肯定對,但它能夠保證最可能對,或者說可能最好的答案。」微軟亞洲研究院語音組首席研究員和負責人宋謌平對《第一財經週刊》說。


  當訓練完成之後,語音識別就變成了一個排序過程。當一段語音被輸入,模型會通過自己的算法,從數據庫中尋找匹配度最大的那一句。各家公司不同的「算法」,以及建立起來的基礎數據庫,成了它們各自在語音識別上的核心技術。


  一段話是誰說的並不重要,更重要的是它的文本識別率。按照宋謌平的說法,一般能達到90%以上的識別率,大部分的用戶都可以接受。


  要提高準確率,除了數據庫和算法,另一個必須解決的問題就是在噪音環境中更準確地分辨出輸入的語音。


  眼下要解決噪音問題一般通過兩種辦法,一是在訓練素材中包括噪音數據,讓模型「記住」聲音在不同環境下的差異,並在最終識別的時候,對噪音進行降噪處理;另外一種辦法,則是識別同樣噪聲環境裡的、沒有經過降噪處理的語言。


  在數據庫有可能建立得比較大的情況下,蒐集到足夠的噪音數據、並在噪音中進行識別是一種最好的辦法。但現實是,一般意義上的「噪音」太多。比如汽車的 引擎、餐廳中的各種聲音,本質上並不相同,但都會對說話人的語音輸入造成干擾。對於手機而言,計算和存儲能力都有限,建立龐大和複雜的模型並不現實,一般 會直接使用降噪處理的辦法。


  早在1992年,一家名為Nuance的公司就看到了語音識別技術的商機。目前Nuance在美國已經開闢出兩部分主要市場,包括諮詢業務和醫療診斷 記錄的聽寫。2011財年,Nuance的營收共計13.18億美元,其中產品銷售及授權收入佔比46%,產品的使用人數已有1600萬。


  這家擁有近4000項專利的公司通過提供面向醫療、手機、汽車等企業的語音解決方案盈利。在美國昂貴的人工費用壓力之下,包括美聯航和大部分醫院在內的機構,都開始選擇語音聽寫引擎這樣的識別設備,解決部分客戶服務和書寫病歷的問題。


  將默默埋頭賺錢的Nuance推向前台的正是蘋果。由於Siri使用了Nuance的語音識別引擎,這家公司開始獲得越來越多的曝光。Siri曾在起步階段使用過其他平台,但最終切換到了Nuance,不知這是否與Siri和Nuance同樣出自斯坦福研究院有關。


  曾有傳言蘋果與Nuance進行了幾個月的接觸,試圖收購後者,但因其價值連城的專利,以及「在談判時近乎於喬布斯級別難纏的CEO」,這場收購後來 不了了之。蘋果通過引入Nuance的語音識別,再將識別之後的信息與其他「知識和資訊類數據庫」連接,在人機交互領域發起了一場革命。


  2011年,通過云端訪問Nuance的語音數據庫的訪問量達到了20億次。眼下,它們也開始進入中國市場,最新版本的Siri將提供包括普通話、廣東話和台灣地區國語的識別。不過中文與英文的識別引擎完全不同,需要重新開發。


  在中國,還沒有形成大規模的語音識別應用市場。國內語音市場佔有60%以上份額的是科大訊飛,主要營收也只是來自於語音合成技術。它只是讓電腦「念」出文本,在電信公司和銀行的呼叫中心裡較為常用。


  微軟創始人比爾·蓋茨曾在2008年預測,五年之內互聯網的搜索大部分將通過語音完成。現在看來,他或許樂觀了一些。即使語音識別技術已經能夠適於應用,真正的人機交互還有待於語音識別的更深層—語義識別技術的發展。


  如果從字面上解釋,語義識別的意義在於能讓機器真正明白信息的含義。當機器聽到一個名為「意大利菜」的關鍵詞時,技術優良的語音識別可能會做出搜索意 大利菜的反應、或者幫你預訂好常去的餐廳,但語義識別則意味著,它還可能明白意大利菜會有什麼樣的口感、或者探知餐廳的氛圍。


  語義識別的終極夢想是讓機器完全辨知人類說話的語義和情緒,就像「鋼鐵俠」的那位智能助手一樣。


  與發展相對迅速的語音識別不同,現有的語義識別仍然處於基礎階段,是一種機械的識別過程。「這一類的技術基本上還是填空法。」宋謌平說。當機器聽到語音,進行識別之後,會從「語義數據庫」中搜索出與其相匹配的關鍵詞,與人的語義理解還有很大區別。


  不過在一些垂直領域,語義識別已經獲得了一定程度的發展和應用。中華英才網的控股公司、美國最大的人力資源網站Monster,最近開始在中國市場推 出一種名為6Sense的語義搜索專利技術。它能將求職者的工作經歷、技能、教育背景和所在地區,與目標職位匹配起來,再對他們進行分析、評級和排序,從 而提高HR篩選簡歷的效率。在人力資源領域,「甲骨文」意味著那家國際知名的企業軟件公司,而不是中國古代文字。如果僅僅是圍繞在一個特定領域內,系統判 斷和識別的難度要小得多。


  從長遠來看,語義識別目前還有很多尚未突破的難點。最大的障礙事關情感,機器還沒有辦法理解人類的情感,它們只能通過語音信號的聲學變化去捕捉人類的情緒,比如頻率和時長這樣的參數;此外,因為語言本身的模糊性,識別過程中的關鍵詞抽取也經常出現不準確的現象。


  小i機器人的創立者袁輝說,語義識別的下一步發展,需要長期的、系統的平台去處理每天進來的海量知識和信息,經過長期的集聚,形成工程化的產品,最後才能對知識進行篩選,甚至能夠學習新的知識點。


  看起來,「云」或許會是一個解決辦法。因為云服務器可以容納規模足夠大的模型。如果能有一種算法,使這種模型具有學習能力,就可以將用戶的語義在云端服務器中進行分析,再借助網絡將指令和文本回傳。


  儘管可以用語音操作的手機、PC甚至汽車都離我們不太遠了,但要讓這項技術真正達到善解人意的程度,還需要很長一段時間。


  還是先慢慢折騰Siri吧。


PermaLink: https://articles.zkiz.com/?id=35296

Next Page

ZKIZ Archives @ 2019