Random Tags

字部戲錫塔克砸與空白五天亦帶彬搶共侍斌們所未巨坑監督通吾星探港出釀核金咪錚促開張艾伯糖真歌賣地創暉牛鄭行水汽隻最哈佛了最書中倫閃互補命門 felix 織造在京撐梁個七睇迫勞死仲謙想佢該到華搶與狗道遠賣其家業學徒工

微軟全球副總裁沈向洋：要讓“機器人”能講出圖像背後的故事

來源: http://www.yicai.com/news/2016/01/4740024.html

微軟全球副總裁沈向洋：要讓“機器人”能講出圖像背後的故事

一財網江旋 2016-01-17 16:23:00

人工智能不僅僅是計算機科學，它是一門交叉學科，包括了心理學、社會學、哲學、腦科學等等。對圖像的識別則是人工智能發展中的一個重要分支，重量級的互聯網公司都在該領域發力。

人們都喜歡“看圖說話”，而人工智能(AI)的研究者們希望未來計算機能像人類一樣識別圖片，理解圖片背後的故事。但這一領域的頂尖研究者卻認為，要達到這個層次，人工智能研究的任務並不輕松。

微軟全球執行副總裁沈向洋1月17日在“未來論壇”上談及人工智能中計算機視覺的最新研究進展時表示，在圖像處理的問題中，對圖像的理解是一個前沿性的問題，或許還有“漫漫長路要走”。

沈向洋稱，人工智能已經發展了50余年時間，真正要把人工智能做得像人類智能一樣的程度，首先要感知，然後是認知。人工智能不僅僅是計算機科學，它是一門交叉學科，包括了心理學、社會學、哲學、腦科學等等。

對圖像的識別則是人工智能發展中的一個重要分支，重量級的互聯網公司都在該領域發力。

以Google推出的GooglePhotos的為例，GooglePhotos不僅僅是相冊，也具備了智能的圖片識別技術：它可以將相冊中同一個人物的照片整合在一起，比如回顧一個嬰兒從小到大的成長軌跡。其“訓練”過程是：AI具有30層神經網絡，每一層對應著不同的抽象程度，比如最低層次能識別光線、色彩，下一層次能識別圖片的邊緣等等。這樣一層層的“訓練”需要大量的數據。每一層都能提取出更高層次的細節，而最後一層會決定AI對圖片的理解。

去年年底，微軟亞洲研究院視覺計算組在一項比賽中，對深層神經網絡技術又進行了突破：目前普遍使用的神經網絡層級能夠達到20到30層，此次比賽中該團隊應用的神經網絡系統實現了152層。

據悉，微軟的聊天機器人小冰已經整合了微軟在圖像識別上的技術，不僅能識別圖像類型和要素，還能進行人性化的描述。

不過，人工智能在對圖像進行處理時，雖然目前的識別技術已經非常先進了，但並非每次都很靈光。一些實驗就表明，研究員給出的相似、相近或是較複雜的圖像，往往能夠騙過計算機，使其得出錯誤或是不那麽精確的結論。

對於這些問題，沈向洋談到，圖像識別可以分為三個問題：一是對圖像的分類，二是對圖像中的要素的察覺，三是像素級別的區分。目前對這三個問題研究的進展都很迅速，但應該再向前一步對圖像理解進行深入研究。

“比如Howold，MicrosoftSelfie這些軟件，對圖像的理解到底能做到什麽地步?一張照片來了之後，能不能解釋這張照片到底是什麽，能不能挖掘背後的故事。怎麽讓這個過程變得更加有趣。”沈向洋說道。

微軟把這些功能集成在小冰聊天機器人身上。沈向洋在論壇現場展示的一張圖片顯示，一張照片中有大小兩只貓，如果僅僅是按計算機視覺來做，會得出“這張圖里有兩只貓”的結論，而小冰卻可以說出“看這貓的眼神兒太犀利了”，從而讓聊天過程變得更有趣。沈認為，這種人性化的描述通過計算機識別無法達到，只有通過人類交互才能達到。

這種更為複雜的交互方式是AI發展的一個重要方向。“人工智能是近幾年來最火的研究領域，但是當我們真正走向人工智能的時候，就算是在機器視覺的這樣一個分支上，都還有漫漫長路要走。”沈向洋說道。

編輯：邊長勇

更多精彩內容
請關註第一財經網、第一財經日報微信號

PermaLink: https://articles.zkiz.com/?id=182702

📖 ZKIZ Archives

Random Tags