📖 ZKIZ Archives


谷歌語言交互新突破 能更逼真模擬人聲

谷歌DeepMind研究實驗室昨天公布了在計算機合成領域的最新成果WaveNet,該語音合成系統能夠模仿人類的聲音,生成的原始音頻相比現有的技術與人類聲音的差異縮小了一半。

DeepMind在周五發布的一份博客中稱:“該技術已經通過了美國英語和中文普通話的盲測,聽眾認為WaveNet產生的語音聽起來比谷歌現有的語音技術產生的語音更加自然。不過DeppMind表示,目前這種技術還沒有被應用到谷歌的任何產品中,而且該系統需要強大的計算能力,近期還不會應用到真實世界的場景中。

讓人類和機器自由交談是人機交互研究領域長久以來的夢想。過去幾年,深度神經網絡的應用大幅提升了計算機理解自然語音的能力。然而,運用計算機生成語音仍然主要依靠語音合成或者拼接式TTS文本到語言(text to speech)。需要人們先錄制單一說話者的大量語音片段,建立一個大型數據庫,然後將語音片段合成完整的話語。這種語音合成方式的缺陷在於很難對聲音加以修飾,無法表達情感。

為了解決語音合成的這一難題,研究人員嘗試運用一種參量改頻式TTS(parametric TTS)。在這種TTS系統中,生成數據所需要的所有信息被存儲於模型的參數中,語音所傳達的內容以及語音特征可以通過模型的輸入信息得以控制。不過現有的參量改頻式TTS生成的語音通常是將輸出的信息交給信號處理算法去做處理,從而生成音頻信號,因此聽起來還不如拼接式的TTS生成的語音自然。

WaveNet的突破在於改變了這種利用信號處理器轉化生成音頻信號的範式,直接使用音頻信號的原始波形建模,這項技術基於人工智能神經網絡,能夠模仿人類大腦的功能,比如對於大量信息庫數據的處理,因此不僅能夠模仿任何人的聲音,還能生成音樂。在測試中,WaveNet已經通過分析古典音樂生成了鋼琴曲。

上海威盛電子語音交互部門研發總監張國峰對第一財經表示:“通過語音特征來生成波形的方式是比較早期的一種技術,它的原理是語音識別的逆過程,采用的技術和識別也比較接近。從描述上來看,DeepMind應該是基於深度神經網絡波形生成的語音。這一點和現在的技術有所不同。深度神經網絡的一個重要訓練方法就是輸出結果經過逆網絡後重現輸出,也就是自我複制神經網絡。”

DeepMind表示,WaveNet還不能馬上做商業化應用,因為該系統還需要獲得非常強大的計算能力,每秒鐘需要采集信號的次數多達16000次或者更多。而且對於采集到的每一個信號,它都要基於前一個信號的樣本,分析預測下一個聲波會是什麽樣子。DeepMind研究人員承認這是一個非常大的挑戰。

盡管如此,科技公司仍然對DeepMind此次在語音合成方面取得的進展予以極大關註。人機交互已經成為人們與他們的移動電話和汽車取得溝通的重要途徑。亞馬遜、蘋果、微軟和谷歌都在個人數字助力的研發上投入大量資金,希望有朝一日能夠實現人類和機器自然地對話。芝麻科技創始人CEO朱智對第一財經表示:“智能設備的發展註定了機器與人溝通的方式越來越重要,它說話說得越順,與人交流就越深入,學會說話了,就意味著它像孩子那樣長大了。”

谷歌2014年斥資4億英鎊收購了總部位於英國的DeepMind公司。此後DeepMind就一直從事與人工智能相關的研究。Google Play國際事業部總監Mark Bennett上周在倫敦的一場開發者會議上表示,谷歌移動端語音搜索的比重已經占到20%。

不過在機器對人類語言有了更強的理解能力的同時,他們開口說話的能力並沒有跟上。DeepMind希望WaveNet能夠成為公司的下一個人工智能主打產品。DeepMind此前因AlphaGo打敗韓國圍棋大師李世石而一鳴驚人。

截至目前,谷歌依然對人工智能的應用守口如瓶,最近以此谷歌公布人工智能成果在於其對谷歌數據中心的能耗節省方面做出的貢獻。這也令谷歌能把節省下來的高達40%的能源開支用於人工智能的研發。

PermaLink: https://articles.zkiz.com/?id=214388

Next Page

ZKIZ Archives @ 2019