谷歌DeepMind研究實驗室昨天公布了在計算機合成領域的最新成果WaveNet,該語音合成系統能夠模仿人類的聲音,生成的原始音頻相比現有的技術與人類聲音的差異縮小了一半。
DeepMind在周五發布的一份博客中稱:“該技術已經通過了美國英語和中文普通話的盲測,聽眾認為WaveNet產生的語音聽起來比谷歌現有的語音技術產生的語音更加自然。不過DeppMind表示,目前這種技術還沒有被應用到谷歌的任何產品中,而且該系統需要強大的計算能力,近期還不會應用到真實世界的場景中。
讓人類和機器自由交談是人機交互研究領域長久以來的夢想。過去幾年,深度神經網絡的應用大幅提升了計算機理解自然語音的能力。然而,運用計算機生成語音仍然主要依靠語音合成或者拼接式TTS文本到語言(text to speech)。需要人們先錄制單一說話者的大量語音片段,建立一個大型數據庫,然後將語音片段合成完整的話語。這種語音合成方式的缺陷在於很難對聲音加以修飾,無法表達情感。
為了解決語音合成的這一難題,研究人員嘗試運用一種參量改頻式TTS(parametric TTS)。在這種TTS系統中,生成數據所需要的所有信息被存儲於模型的參數中,語音所傳達的內容以及語音特征可以通過模型的輸入信息得以控制。不過現有的參量改頻式TTS生成的語音通常是將輸出的信息交給信號處理算法去做處理,從而生成音頻信號,因此聽起來還不如拼接式的TTS生成的語音自然。
WaveNet的突破在於改變了這種利用信號處理器轉化生成音頻信號的範式,直接使用音頻信號的原始波形建模,這項技術基於人工智能神經網絡,能夠模仿人類大腦的功能,比如對於大量信息庫數據的處理,因此不僅能夠模仿任何人的聲音,還能生成音樂。在測試中,WaveNet已經通過分析古典音樂生成了鋼琴曲。
上海威盛電子語音交互部門研發總監張國峰對第一財經表示:“通過語音特征來生成波形的方式是比較早期的一種技術,它的原理是語音識別的逆過程,采用的技術和識別也比較接近。從描述上來看,DeepMind應該是基於深度神經網絡波形生成的語音。這一點和現在的技術有所不同。深度神經網絡的一個重要訓練方法就是輸出結果經過逆網絡後重現輸出,也就是自我複制神經網絡。”
DeepMind表示,WaveNet還不能馬上做商業化應用,因為該系統還需要獲得非常強大的計算能力,每秒鐘需要采集信號的次數多達16000次或者更多。而且對於采集到的每一個信號,它都要基於前一個信號的樣本,分析預測下一個聲波會是什麽樣子。DeepMind研究人員承認這是一個非常大的挑戰。
盡管如此,科技公司仍然對DeepMind此次在語音合成方面取得的進展予以極大關註。人機交互已經成為人們與他們的移動電話和汽車取得溝通的重要途徑。亞馬遜、蘋果、微軟和谷歌都在個人數字助力的研發上投入大量資金,希望有朝一日能夠實現人類和機器自然地對話。芝麻科技創始人CEO朱智對第一財經表示:“智能設備的發展註定了機器與人溝通的方式越來越重要,它說話說得越順,與人交流就越深入,學會說話了,就意味著它像孩子那樣長大了。”
谷歌2014年斥資4億英鎊收購了總部位於英國的DeepMind公司。此後DeepMind就一直從事與人工智能相關的研究。Google Play國際事業部總監Mark Bennett上周在倫敦的一場開發者會議上表示,谷歌移動端語音搜索的比重已經占到20%。
不過在機器對人類語言有了更強的理解能力的同時,他們開口說話的能力並沒有跟上。DeepMind希望WaveNet能夠成為公司的下一個人工智能主打產品。DeepMind此前因AlphaGo打敗韓國圍棋大師李世石而一鳴驚人。
截至目前,谷歌依然對人工智能的應用守口如瓶,最近以此谷歌公布人工智能成果在於其對谷歌數據中心的能耗節省方面做出的貢獻。這也令谷歌能把節省下來的高達40%的能源開支用於人工智能的研發。
在上海工作的王勇(化名)近日接到一則推銷電話,“賣車險的”。他剛好不忙,於是很紳士地跟這位推銷員小姐聊了一會兒,解釋了一下自己的情況不需要車險了。末了還跟她說了聲“謝謝”。
但是這個看起來普通的電話很不尋常。
在掛掉電話後,王勇收到了一則短信,險些昏厥。短信內容如下:“你好,我是剛才給你打電話的電銷機器人小三,我們公司的聯系電話是XXXXX,歡迎後期來電咨詢。”
時代不同了。你可能被人工智能(AI)騙過,未來你也許也可以用AI去迷惑別人了 。有這樣一個機器人“小夥伴”,它可以代你向餐廳打電話預訂座位;還能冒充你跟熟人調侃、替你回郵件。
這一切正在發生。當地時間5月8日,谷歌I/O開發者大會在美國加利福尼亞州山景城召開。這家矽谷科技巨頭再次強調了AI先行的戰略。
在這次開發者大會上,谷歌不僅展示了功能更加強大的語音助手Google Assistant,還發布了第三代人工智能TPU(張量處理器)芯片,它的前輩就是“阿爾法狗”在圍棋界所向披靡的“秘密武器”。由此,谷歌一方面與人工智能芯片巨頭英偉達的GPU(圖形處理器)形成競爭,另一方面也意在挑戰微軟和亞馬遜雲。
一句“嗯哼”脫口而出
谷歌CEO桑達爾·皮查伊在會上演示了事先錄好的兩段語音對話,分別是語音助手代替人類預約理發和預訂餐廳的。
比起傳統的對話語音機器人,使用谷歌Duplex AI語音系統的新助手要人性化得多,它不僅能夠和人類進行多回合的對話,而且還自帶語氣詞,聽起來相當逼真。
在第一段女聲版機器人顧客和理發店店員的對話中,機器人顧客的一句“嗯哼”以假亂真,與人類使用英語對話的語氣十分相似,而且機器人也不再局限於僅僅以“是”或者“不是”簡單地回答提問,而是會與人類進行談判和商量,最終達成了一致,完成預約工作。
在另一段男生版的機器人顧客和中餐店服務員的對話中,機器人不僅能夠聽懂帶口音和不規範的英語,而且還會在對話中進行即興發揮,讓雙方的交互變得更加“優雅”而自然。比如當餐廳服務員告訴顧客當時“不用等位”時,機器人顧客人性化地追問道:“那麽一般情況下,等位需要多久?”
皮查伊沒有透露這項服務何時能夠讓用戶使用,不過表示從今年夏天起就將進行公測。
值得註意的是,在《愛樂之城》中客串樂手的美國著名歌手約翰·傳奇(John Legend)的聲音也將被谷歌助手采用。包括他在內,谷歌目前已經擁有六種不同的人聲。
皮查伊在大會上表示:“谷歌的語音合成系統Wavenet的模型,是基於原始的音頻來創造出更加接近人類、更加自然的聲音,包括音高、語速以及停頓等。”
這項技術如果普及,或許意味著未來商家接起顧客的電話時,將很難分辨究竟是真人還是機器人在向自己咨詢提問。
中國的人工智能企業出門問問創始人兼CEO、谷歌前工程師李誌飛對第一財經記者表示:“這種場景雖然有點聳人聽聞,但是與谷歌的競爭對手如以網絡書店起家的亞馬遜相比,谷歌在最底層的核心技術以及把技術打磨、做細做精方面絕對是‘一騎絕塵’的,這主要受到公司的工程師文化以及強大的研發隊伍的影響。”
參加完谷歌I/O大會的一位中國開發者對第一財經記者感嘆道:“我已經分不清自己是身處現世或是未來。“
芯片雲端齊發力
谷歌的策略已經從“人工智能優先”(AI First)全面轉向“獨有人工智能”(AI Only)。除了語音功能以外,谷歌郵箱Gmail也加入了智能化功能,運用機器學習可以在人們輸入時實時推薦可能會使用到的短語。該功能被稱作“智能創作”(Smart Compose),本月底將會正式上線。
而人工智能在谷歌地圖方面的應用就更加強大了,利用全新的Google Lens的應用,地圖和相機直接實現打通,與谷歌街景結合,打通虛擬和現實世界,類似於增強現實(AR)的功能,由現實到虛擬,只要打開相機,就能給你指方向。此外,人工智能還能直接與衛星圖像結合,把更多商戶和新地址添加到地圖中。
“這才是我們真正需要的人工智能。”興民智通(002355.SZ)首席運營官張人傑對第一財經記者表示,“一些國內公司紮堆兒在做同質化的東西。有時候,產品設計的初心在某種程度上決定了結果。”該公司的主業之一是智能網聯汽車數據的采集運營。
強大的人工智能背後是高性能芯片的支持。I/O大會上,谷歌還發布了最新一代的人工智能芯片TPU 3.0版本。兩年前谷歌首次宣布推出通用的人工智能芯片時,就意在與英偉達的人工智能芯片GPU競爭。
據介紹,新一代TPU能夠幫助谷歌提升包括錄音音頻中的語言識別功能,還能在視頻和照片中辨別出物體,並從文字當中提取隱藏的表情。
谷歌已發布兩個版本的TPU處理器,公司將允許使用谷歌公有雲服務的第三方開發者在TPU上進行開發,從而在雲服務業務方面與微軟和亞馬遜競爭。本周稍早時,微軟也發布了基於微軟雲Azure特殊芯片的早期應用。
皮查伊表示,最新一代的TPU處理器的性能比去年發布的第二代版本要強8倍,可提供超過100萬億次浮點運算。而且谷歌第一次引入液體冷卻的方法來解決散熱問題。
“把自用的TPU開放出來做雲服務,顯示了谷歌在雲業務方面加大投資布局。谷歌將與所有提供智能雲服務的廠商競爭;而芯片方面則將和英偉達展開競爭。”研究機構Gartner研究副總裁盛陵海對第一財經記者表示。
下一個風口:醫療+AI
國內的智能語音領軍企業科大訊飛(002230.SZ)也在密切關註谷歌I/O大會的新動向。
科大訊飛執行總裁胡郁對第一財經記者感嘆道:“谷歌的語音技術一直挺牛的。”據介紹,一小時的語音數據如果在傳統處理器上進行智能應用處理,需要一萬小時才能完成,因此科大訊飛一直在跟蹤人工智能專用芯片的前沿進展。
胡郁向第一財經透露,科大訊飛看好智能語音在醫療方面的應用。“我們正在和國內的幾個醫院談,用我們先進的智能語音技術幫助醫生記錄下手術的全過程。” 通常醫生在做完手術之後,要通過回憶把手術過程記錄下來留存。胡郁說:“我們讓醫生在手術過程中戴上耳麥,能實時把他們的指令記錄下來,手術完畢後直接匯總成文,為醫生減輕了大量整理工作。”
人工智能和醫療的結合將是科技公司下一個爭奪的主戰場。在印度,谷歌的醫療AI已經在幫助醫生進行視網膜篩查糖尿病和心臟病的工作,以解決醫療資源分配不公的問題。
“兩年前,谷歌開發了一套神經網絡,它能通過眼部醫學造影來探測糖尿病視網膜病變。今年,人工智能團隊利用深度學習模型,已經能夠高度精確地預測一位病人未來心臟病和腦溢血的發病風險。”谷歌5月9日在發給第一財經記者的聲明中表示。