ZKIZ Archives


谷歌語言交互新突破 能更逼真模擬人聲

谷歌DeepMind研究實驗室昨天公布了在計算機合成領域的最新成果WaveNet,該語音合成系統能夠模仿人類的聲音,生成的原始音頻相比現有的技術與人類聲音的差異縮小了一半。

DeepMind在周五發布的一份博客中稱:“該技術已經通過了美國英語和中文普通話的盲測,聽眾認為WaveNet產生的語音聽起來比谷歌現有的語音技術產生的語音更加自然。不過DeppMind表示,目前這種技術還沒有被應用到谷歌的任何產品中,而且該系統需要強大的計算能力,近期還不會應用到真實世界的場景中。

讓人類和機器自由交談是人機交互研究領域長久以來的夢想。過去幾年,深度神經網絡的應用大幅提升了計算機理解自然語音的能力。然而,運用計算機生成語音仍然主要依靠語音合成或者拼接式TTS文本到語言(text to speech)。需要人們先錄制單一說話者的大量語音片段,建立一個大型數據庫,然後將語音片段合成完整的話語。這種語音合成方式的缺陷在於很難對聲音加以修飾,無法表達情感。

為了解決語音合成的這一難題,研究人員嘗試運用一種參量改頻式TTS(parametric TTS)。在這種TTS系統中,生成數據所需要的所有信息被存儲於模型的參數中,語音所傳達的內容以及語音特征可以通過模型的輸入信息得以控制。不過現有的參量改頻式TTS生成的語音通常是將輸出的信息交給信號處理算法去做處理,從而生成音頻信號,因此聽起來還不如拼接式的TTS生成的語音自然。

WaveNet的突破在於改變了這種利用信號處理器轉化生成音頻信號的範式,直接使用音頻信號的原始波形建模,這項技術基於人工智能神經網絡,能夠模仿人類大腦的功能,比如對於大量信息庫數據的處理,因此不僅能夠模仿任何人的聲音,還能生成音樂。在測試中,WaveNet已經通過分析古典音樂生成了鋼琴曲。

上海威盛電子語音交互部門研發總監張國峰對第一財經表示:“通過語音特征來生成波形的方式是比較早期的一種技術,它的原理是語音識別的逆過程,采用的技術和識別也比較接近。從描述上來看,DeepMind應該是基於深度神經網絡波形生成的語音。這一點和現在的技術有所不同。深度神經網絡的一個重要訓練方法就是輸出結果經過逆網絡後重現輸出,也就是自我複制神經網絡。”

DeepMind表示,WaveNet還不能馬上做商業化應用,因為該系統還需要獲得非常強大的計算能力,每秒鐘需要采集信號的次數多達16000次或者更多。而且對於采集到的每一個信號,它都要基於前一個信號的樣本,分析預測下一個聲波會是什麽樣子。DeepMind研究人員承認這是一個非常大的挑戰。

盡管如此,科技公司仍然對DeepMind此次在語音合成方面取得的進展予以極大關註。人機交互已經成為人們與他們的移動電話和汽車取得溝通的重要途徑。亞馬遜、蘋果、微軟和谷歌都在個人數字助力的研發上投入大量資金,希望有朝一日能夠實現人類和機器自然地對話。芝麻科技創始人CEO朱智對第一財經表示:“智能設備的發展註定了機器與人溝通的方式越來越重要,它說話說得越順,與人交流就越深入,學會說話了,就意味著它像孩子那樣長大了。”

谷歌2014年斥資4億英鎊收購了總部位於英國的DeepMind公司。此後DeepMind就一直從事與人工智能相關的研究。Google Play國際事業部總監Mark Bennett上周在倫敦的一場開發者會議上表示,谷歌移動端語音搜索的比重已經占到20%。

不過在機器對人類語言有了更強的理解能力的同時,他們開口說話的能力並沒有跟上。DeepMind希望WaveNet能夠成為公司的下一個人工智能主打產品。DeepMind此前因AlphaGo打敗韓國圍棋大師李世石而一鳴驚人。

截至目前,谷歌依然對人工智能的應用守口如瓶,最近以此谷歌公布人工智能成果在於其對谷歌數據中心的能耗節省方面做出的貢獻。這也令谷歌能把節省下來的高達40%的能源開支用於人工智能的研發。

谷歌 語言 交互 突破 能更 逼真 模擬 人聲
PermaLink: https://articles.zkiz.com/?id=214388

在阿爾法狗完勝之後,谷歌AI“偷”走了人聲

在上海工作的王勇(化名)近日接到一則推銷電話,“賣車險的”。他剛好不忙,於是很紳士地跟這位推銷員小姐聊了一會兒,解釋了一下自己的情況不需要車險了。末了還跟她說了聲“謝謝”。

但是這個看起來普通的電話很不尋常。

在掛掉電話後,王勇收到了一則短信,險些昏厥。短信內容如下:“你好,我是剛才給你打電話的電銷機器人小三,我們公司的聯系電話是XXXXX,歡迎後期來電咨詢。”

時代不同了。你可能被人工智能(AI)騙過,未來你也許也可以用AI去迷惑別人了 。有這樣一個機器人“小夥伴”,它可以代你向餐廳打電話預訂座位;還能冒充你跟熟人調侃、替你回郵件。

這一切正在發生。當地時間5月8日,谷歌I/O開發者大會在美國加利福尼亞州山景城召開。這家矽谷科技巨頭再次強調了AI先行的戰略。

在這次開發者大會上,谷歌不僅展示了功能更加強大的語音助手Google Assistant,還發布了第三代人工智能TPU(張量處理器)芯片,它的前輩就是“阿爾法狗”在圍棋界所向披靡的“秘密武器”。由此,谷歌一方面與人工智能芯片巨頭英偉達的GPU(圖形處理器)形成競爭,另一方面也意在挑戰微軟和亞馬遜雲。

一句“嗯哼”脫口而出

谷歌CEO桑達爾·皮查伊在會上演示了事先錄好的兩段語音對話,分別是語音助手代替人類預約理發和預訂餐廳的。

比起傳統的對話語音機器人,使用谷歌Duplex AI語音系統的新助手要人性化得多,它不僅能夠和人類進行多回合的對話,而且還自帶語氣詞,聽起來相當逼真。

在第一段女聲版機器人顧客和理發店店員的對話中,機器人顧客的一句“嗯哼”以假亂真,與人類使用英語對話的語氣十分相似,而且機器人也不再局限於僅僅以“是”或者“不是”簡單地回答提問,而是會與人類進行談判和商量,最終達成了一致,完成預約工作。

在另一段男生版的機器人顧客和中餐店服務員的對話中,機器人不僅能夠聽懂帶口音和不規範的英語,而且還會在對話中進行即興發揮,讓雙方的交互變得更加“優雅”而自然。比如當餐廳服務員告訴顧客當時“不用等位”時,機器人顧客人性化地追問道:“那麽一般情況下,等位需要多久?”

皮查伊沒有透露這項服務何時能夠讓用戶使用,不過表示從今年夏天起就將進行公測。

值得註意的是,在《愛樂之城》中客串樂手的美國著名歌手約翰·傳奇(John Legend)的聲音也將被谷歌助手采用。包括他在內,谷歌目前已經擁有六種不同的人聲。

皮查伊在大會上表示:“谷歌的語音合成系統Wavenet的模型,是基於原始的音頻來創造出更加接近人類、更加自然的聲音,包括音高、語速以及停頓等。”

這項技術如果普及,或許意味著未來商家接起顧客的電話時,將很難分辨究竟是真人還是機器人在向自己咨詢提問。

中國的人工智能企業出門問問創始人兼CEO、谷歌前工程師李誌飛對第一財經記者表示:“這種場景雖然有點聳人聽聞,但是與谷歌的競爭對手如以網絡書店起家的亞馬遜相比,谷歌在最底層的核心技術以及把技術打磨、做細做精方面絕對是‘一騎絕塵’的,這主要受到公司的工程師文化以及強大的研發隊伍的影響。”

參加完谷歌I/O大會的一位中國開發者對第一財經記者感嘆道:“我已經分不清自己是身處現世或是未來。“

芯片雲端齊發力

谷歌的策略已經從“人工智能優先”(AI First)全面轉向“獨有人工智能”(AI Only)。除了語音功能以外,谷歌郵箱Gmail也加入了智能化功能,運用機器學習可以在人們輸入時實時推薦可能會使用到的短語。該功能被稱作“智能創作”(Smart Compose),本月底將會正式上線。

而人工智能在谷歌地圖方面的應用就更加強大了,利用全新的Google Lens的應用,地圖和相機直接實現打通,與谷歌街景結合,打通虛擬和現實世界,類似於增強現實(AR)的功能,由現實到虛擬,只要打開相機,就能給你指方向。此外,人工智能還能直接與衛星圖像結合,把更多商戶和新地址添加到地圖中。

“這才是我們真正需要的人工智能。”興民智通(002355.SZ)首席運營官張人傑對第一財經記者表示,“一些國內公司紮堆兒在做同質化的東西。有時候,產品設計的初心在某種程度上決定了結果。”該公司的主業之一是智能網聯汽車數據的采集運營。

強大的人工智能背後是高性能芯片的支持。I/O大會上,谷歌還發布了最新一代的人工智能芯片TPU 3.0版本。兩年前谷歌首次宣布推出通用的人工智能芯片時,就意在與英偉達的人工智能芯片GPU競爭。

據介紹,新一代TPU能夠幫助谷歌提升包括錄音音頻中的語言識別功能,還能在視頻和照片中辨別出物體,並從文字當中提取隱藏的表情。

谷歌已發布兩個版本的TPU處理器,公司將允許使用谷歌公有雲服務的第三方開發者在TPU上進行開發,從而在雲服務業務方面與微軟和亞馬遜競爭。本周稍早時,微軟也發布了基於微軟雲Azure特殊芯片的早期應用。

皮查伊表示,最新一代的TPU處理器的性能比去年發布的第二代版本要強8倍,可提供超過100萬億次浮點運算。而且谷歌第一次引入液體冷卻的方法來解決散熱問題。

“把自用的TPU開放出來做雲服務,顯示了谷歌在雲業務方面加大投資布局。谷歌將與所有提供智能雲服務的廠商競爭;而芯片方面則將和英偉達展開競爭。”研究機構Gartner研究副總裁盛陵海對第一財經記者表示。

下一個風口:醫療+AI

國內的智能語音領軍企業科大訊飛(002230.SZ)也在密切關註谷歌I/O大會的新動向。

科大訊飛執行總裁胡郁對第一財經記者感嘆道:“谷歌的語音技術一直挺牛的。”據介紹,一小時的語音數據如果在傳統處理器上進行智能應用處理,需要一萬小時才能完成,因此科大訊飛一直在跟蹤人工智能專用芯片的前沿進展。

胡郁向第一財經透露,科大訊飛看好智能語音在醫療方面的應用。“我們正在和國內的幾個醫院談,用我們先進的智能語音技術幫助醫生記錄下手術的全過程。” 通常醫生在做完手術之後,要通過回憶把手術過程記錄下來留存。胡郁說:“我們讓醫生在手術過程中戴上耳麥,能實時把他們的指令記錄下來,手術完畢後直接匯總成文,為醫生減輕了大量整理工作。”

人工智能和醫療的結合將是科技公司下一個爭奪的主戰場。在印度,谷歌的醫療AI已經在幫助醫生進行視網膜篩查糖尿病和心臟病的工作,以解決醫療資源分配不公的問題。

“兩年前,谷歌開發了一套神經網絡,它能通過眼部醫學造影來探測糖尿病視網膜病變。今年,人工智能團隊利用深度學習模型,已經能夠高度精確地預測一位病人未來心臟病和腦溢血的發病風險。”谷歌5月9日在發給第一財經記者的聲明中表示。

阿爾法 阿爾 完勝 之後 谷歌 AI 走了 人聲
PermaLink: https://articles.zkiz.com/?id=263801

一人聲演八角配音員點評動新聞?

1 : GS(14)@2015-05-08 08:28:41

郭碧珍(Pat)早在90年代初已為大家聲演不同角色


一把陪伴了幾代香港人童年的「叮噹」聲音,對香港人來說無可取代。而曾用聲音演活無數中外電影及動畫角色的一班配音員,更是香港的瑰寶。今集《白日夢工場》,動主播一把陪伴了幾代香港人童年的「叮噹」聲音,對香港人來說無可取代。而曾用聲音演活無數中外電影及動畫角色的一班配音員,更是香港的瑰寶。今集《白日夢工場》,動主播CK繼續為大家走訪「夢工作」後台,尋找靚聲背後的主人,學習配音員的自我修養!記者:朱晉傑(CK) 攝影:馮就康



【白日夢工場】第五集-配音員篇

郭碧珍(Pat)早在90年代初已為大家聲演不同角色,當中最為大家熟悉的角色有《哈爾移動城堡》的蘇菲、電影版《星球大戰系列》的Padmé Amidala女王(Natalie Portman飾演)、《龍貓》的草壁梅、《反斗奇兵》的桃麗,以及動畫版《花木蘭》中的主角花木蘭等等...談到入行經過, Pat笑指也只是一個偶爾的機會,「當時其實是做舞台劇演員,謝月美老師見我口齒挺伶俐,聲線不錯,便試試教我配音」。那麼是否只要口齒伶俐,有一把靚聲便足夠?Pat卻說這只是基本條件,「中文程度要好,沒有懶音,另外如有舞台劇底子便更好,因可幫助代入角色」,她續說,這一行天份固然重要,但聲線的柔韌性、厚度等均可透過後天練習改進,因此找一位好的導師也是晉身配音員的重要一步。入行23年, Pat感慨今時今日配音工作已有很多變化,「很多製作公司講求的是快捷,控制成本,Okay便收貨」,「如果你每一個人也可以演幾把聲,兼顧不同角色,我們稱作『五餅二魚』的神蹟,也可成為工作上的優勢」。數年前,Pat正正施展過一人分演八角的神蹟,「當時是一套日本動畫,同一時間配,但分開聲軌錄音,細數時才發現原來在同一套動畫;配了八個人物。」



Pat於錄音前替動主播CK開聲,更表示有些角色說話聲線很尖時,要用喉嚨或頭頂發音;而有些角色較老,或要很性感地說話時,便要用胸腔發音

一絲不苛的 Pat替動主播CK一段動新聞琢磨配音技巧



以為「一演八」已夠厲害,怎料Pat最難忘的是宮崎駿名作《哈爾移動城堡》的一幕,「我要由一個很少女的聲音,一路慢慢愈說愈老,愈說愈大年紀,聲線經過不同階段變成一個老婆婆」,「給予我的滿足感很大,因為只可以一次過,中間不可以剪接,這是一個我自己相當好的考驗」。今天的Pat已位居配音導演,重量級前輩在前,動主播CK當然不放過討教機會,大膽問問Pat對動新聞旁白配音的看法,她坦白地笑說:「其實有些很精彩,很生動,會令我真的笑出來,另外有些其實聽完不是太清楚內容,第一可能太快,其次可能懶音較多」。



正式錄音,動主播CK坦言感受到「高手在背後的壓力」

今天的Pat已位居配音導演



Pat還建議,如果有興趣入行,可以先嘗試報讀坊間一些配音訓練課程、拜師學藝、甚至錄製配音樣本光碟寄到製作公司自薦,一般初期工作量不穩,收入較為波動,建議先由兼職性質做起。《白日夢工場》節目重溫【動物護理員篇】:企鵝人爸爸 執便便幫埋孵化
http://hk.apple.nextmedia.com/news/art/20150409/19106411【遊樂設施操作員篇】:過山車可以加速? 操作員忙到甩轆
http://hk.apple.nextmedia.com/news/art/20150416/19114676【魔術師篇】:魔術師的專業 亞洲冠軍話你知
http://hk.apple.nextmedia.com/news/art/20150424/19124024【配音員篇】:特技化妝奉旨呃人荷里活級嚇到你暈
http://hk.apple.nextmedia.com/news/art/20150430/19131070





來源: http://hk.apple.nextmedia.com/news/art/20150508/19140370
人聲 八角 配音 點評 新聞
PermaLink: https://articles.zkiz.com/?id=290222

【青蛙熱未完】旅行青蛙配樂真人聲演勁治癒 用計數機彈一樣得?

1 : GS(14)@2018-02-25 19:08:49

網民望子深切之際,還幫背景音樂填了詞,創作了一首真人版青蛙歌,歌詞和遊戲劇情更完全吻合。

一click免費下載《籽想去東京》旅遊指南:http://bit.ly/2rSv4c4全新旅遊專頁,即like籽想旅行:https://fb.com/travel.appleseed無論隻蛙在不在家,你都會聽到這首熟悉旋律,網民望子深切之際,還幫背景音樂填了詞,創作了這首真人版青蛙歌,歌詞和遊戲劇情更完全吻合。


原來在這首歌之前,已經有不少網民用不同的樂器來演奏這首治癒的背景音樂,真是創意無限,大家一起來聽聽啦!記者:莊芷君



來源: https://hk.lifestyle.appledaily. ... e/20180225/20314325
青蛙 熱未 未完 旅行 配樂 人聲 演勁 治癒 計數 機彈 一樣
PermaLink: https://articles.zkiz.com/?id=348979

股票掌故 | 香港股票資訊 | 神州股票資訊 | 台股資訊 | 博客好文 | 文庫舊文 | 香港股票資訊 | 第一財經 | 微信公眾號 | Webb哥點將錄 | 港股專區 | 股海挪亞方舟 | 動漫遊戲音樂 | 好歌 | 動漫綜合 | RealBlog | 測試 | 強國 | 潮流潮物 [Fashion board] | 龍鳳大茶樓 | 文章保管庫 | 財經人物 | 智慧 | 世界之大,無奇不有 | 創業 | 股壇維基研發區 | 英文 | 財經書籍 | 期權期指輪天地 | 郊遊遠足 | 站務 | 飲食 | 國際經濟 | 上市公司新聞 | 美股專區 | 書藉及文章分享區 | 娛樂廣場 | 波馬風雲 | 政治民生區 | 財經專業機構 | 識飲色食 | 即市討論區 | 股票專業討論區 | 全球政治經濟社會區 | 建築 | I.T. | 馬後砲膠區之圖表 | 打工仔 | 蘋果專欄 | 雨傘革命 | Louis 先生投資時事分享區 | 地產 |
ZKIZ Archives @ 2019