📖 ZKIZ Archives


微軟全球副總裁沈向洋:要讓“機器人”能講出圖像背後的故事

來源: http://www.yicai.com/news/2016/01/4740024.html

微軟全球副總裁沈向洋:要讓“機器人”能講出圖像背後的故事

一財網 江旋 2016-01-17 16:23:00

人工智能不僅僅是計算機科學,它是一門交叉學科,包括了心理學、社會學、哲學、腦科學等等。對圖像的識別則是人工智能發展中的一個重要分支,重量級的互聯網公司都在該領域發力。

人們都喜歡“看圖說話”,而人工智能(AI)的研究者們希望未來計算機能像人類一樣識別圖片,理解圖片背後的故事。但這一領域的頂尖研究者卻認為,要達到這個層次,人工智能研究的任務並不輕松。

微軟全球執行副總裁沈向洋1月17日在“未來論壇”上談及人工智能中計算機視覺的最新研究進展時表示,在圖像處理的問題中,對圖像的理解是一個前沿性的問題,或許還有“漫漫長路要走”。

沈向洋稱,人工智能已經發展了50余年時間,真正要把人工智能做得像人類智能一樣的程度,首先要感知,然後是認知。人工智能不僅僅是計算機科學,它是一門交叉學科,包括了心理學、社會學、哲學、腦科學等等。

對圖像的識別則是人工智能發展中的一個重要分支,重量級的互聯網公司都在該領域發力。

以Google推出的GooglePhotos的為例,GooglePhotos不僅僅是相冊,也具備了智能的圖片識別技術:它可以將相冊中同一個人物的照片整合在一起,比如回顧一個嬰兒從小到大的成長軌跡。其“訓練”過程是:AI具有30層神經網絡,每一層對應著不同的抽象程度,比如最低層次能識別光線、色彩,下一層次能識別圖片的邊緣等等。這樣一層層的“訓練”需要大量的數據。每一層都能提取出更高層次的細節,而最後一層會決定AI對圖片的理解。

去年年底,微軟亞洲研究院視覺計算組在一項比賽中,對深層神經網絡技術又進行了突破:目前普遍使用的神經網絡層級能夠達到20到30層,此次比賽中該團隊應用的神經網絡系統實現了152層。

據悉,微軟的聊天機器人小冰已經整合了微軟在圖像識別上的技術,不僅能識別圖像類型和要素,還能進行人性化的描述。

不過,人工智能在對圖像進行處理時,雖然目前的識別技術已經非常先進了,但並非每次都很靈光。一些實驗就表明,研究員給出的相似、相近或是較複雜的圖像,往往能夠騙過計算機,使其得出錯誤或是不那麽精確的結論。

對於這些問題,沈向洋談到,圖像識別可以分為三個問題:一是對圖像的分類,二是對圖像中的要素的察覺,三是像素級別的區分。目前對這三個問題研究的進展都很迅速,但應該再向前一步對圖像理解進行深入研究。

“比如Howold,MicrosoftSelfie這些軟件,對圖像的理解到底能做到什麽地步?一張照片來了之後,能不能解釋這張照片到底是什麽,能不能挖掘背後的故事。怎麽讓這個過程變得更加有趣。”沈向洋說道。

微軟把這些功能集成在小冰聊天機器人身上。沈向洋在論壇現場展示的一張圖片顯示,一張照片中有大小兩只貓,如果僅僅是按計算機視覺來做,會得出“這張圖里有兩只貓”的結論,而小冰卻可以說出“看這貓的眼神兒太犀利了”,從而讓聊天過程變得更有趣。沈認為,這種人性化的描述通過計算機識別無法達到,只有通過人類交互才能達到。

這種更為複雜的交互方式是AI發展的一個重要方向。“人工智能是近幾年來最火的研究領域,但是當我們真正走向人工智能的時候,就算是在機器視覺的這樣一個分支上,都還有漫漫長路要走。”沈向洋說道。

編輯:邊長勇

更多精彩內容
請關註第一財經網、第一財經日報微信號

PermaLink: https://articles.zkiz.com/?id=182702

Next Page

ZKIZ Archives @ 2019