李開複王小川張宏江對話：為什麽拿出200萬獎金打造中國版ImageNet？

Random Tags

啱做的施順眼身披鋒美爾見漫畫家那個車了景和黃以杯套次兼可大侍寢是牛鴻站奶團酷寶令炒在建販帖僑洋錡執沈痾叫搵無爛鬧單別拿廚坊臆造囝置只對開約人脈孤劃低劣習攬已想牌鞋 Epik 化病貼貼元低獨也米聊麵包粉羅貫 Bitfinex 看習

李開複王小川張宏江對話：為什麽拿出200萬獎金打造中國版ImageNet？

來源: http://www.iheima.com/zixun/2017/0815/164621.shtml

黑智 2017-08-15 18:08

李開複王小川張宏江對話：為什麽拿出200萬獎金打造中國版ImageNet？

ImageNet走了，AI Challenger來了。

8月14日，創新工場、搜狗和今日頭條聯合宣布，三方攜手發起 “AI Challenger全球AI挑戰賽”，並且，走在一起的三家確立的目標是：打造中國最大的科研數據集與世界級AI競賽平臺。

在人工智能領域，數據的質和量是科研與研發的核心。高質量訓練數據對機器學習模型的建立和優化有關鍵性的作用。建立大規模、高水準的標註數據集，是推動AI科研和技術前進的驅動力。在國際上，前有ImageNet挑戰賽，後有機器學習競賽平臺Kaggle，都吸引了全球將近百萬數據科學家和研究者。但就在上月，在舉辦了八屆後，ImageNet創始人之一李飛飛博士正式宣布其退出歷史舞臺。

現在，創新工場、搜狗和今日頭條走到一起，“我們希望更多的中國人才參與進來，改變世界。”創新工場CEO李開複博士如是說。

200萬獎金、規模最大的科研數據集

就在活動發布的8月14日當天，AI Challenger全球AI挑戰賽的報名通道也宣布開通，並邀請全球AI科研人才參與。

對各界科研人員而言，這次競賽中蘊藏著極大的吸引力。

首先就是數據。大賽第一年啟動，將開放超過1000萬條中英文翻譯數據、70萬個人體動作分析標註數據、30萬張圖片場景標註和語義描述數據，是國內迄今公開的規模最大的科研數據集。

11_副本

據發布會現場介紹，此次三方聯合開放的AI Challenger數據集涵蓋多個領域，包括最大規模的人體骨骼關鍵點數據集（用於無人駕駛、安防、體感遊戲等場景）、最大規模的圖像中文描述數據集（用於圖像和視頻內容理解、圖像標題自動生成等各類應用）、最大規模的口語領域英中翻譯數據集（用於同聲傳譯等自然語言處理的各類應用）等。

在獎金方面，首屆“AI Challenger 全球 AI 挑戰賽”將於9月4日正式拉開帷幕，各路高手展開為期三個月的比拼，並於12月中旬進行總決賽巔峰對決，這次競賽設置了共計200萬元人民幣的獎金池。

據悉，2017年競賽將區分為五個競賽任務，分別是：

英中機器童聲傳譯

英中機器文本翻譯

場景分類

人體骨骼關鍵點檢測

圖像中文描述

據賽事主辦方透露，本次挑戰賽有三大特點：

偏重為前沿科研，並將逐步涵蓋計算機視覺、自然語言處理、自動駕駛、智慧醫療、智慧金融等核心AI領域。

超大規模的高質量數據。首度公開的人體⻣骼關鍵點檢測、圖像描述和口語類機器翻譯數據集，均為國內迄今規模最大。

打造開放的世界級平臺。

不難看出，這次競賽，在科研之外，更大的側重點是前沿科技，以及和未來商業、生活領域密切相關。而促使三方走到一起，打造這樣一項賽事，細究緣起，無外乎兩點，那就是推動國內科研創新能力，以及挖掘更多的AI人才。

創新與人才的競爭

“之前的數據集已經遠遠不夠了。”李開複說。

李開複回憶，他之前去美國，在和很多美國頂尖的教授談話中，他們都在感嘆自己已經追不上美國互聯網巨頭了。“雖然這些教授能力絕對不比谷歌的工程師差，但是他們沒有數據、沒有大的計算力。”

同樣，這也是國內人工智能領域，所面對的問題。在科研領域，研發人員缺乏數據、缺乏機器，同樣也缺乏對前沿AI主流研究的課題。而對於擁有大量數據的商業公司而言，也更期待有更多的應用場景和研究成果可以挖掘。

在此之前，搜狗已經和清華大學共同做了9年的聯合研究。雙方在數據、人才、資金上進行不間斷的交流和互相輸送，在去年，更是聯合成立了天工智能計算研究院。但王小川仍在思考，是否可以把數據公開給更多的國內高校，共同推進研發。而李開複的建議，讓他感覺到，在這件事情上，其實可以做得更大。

“我們期待，高校和企業一樣做出更好的研究成果。當高校等的研究人員應用數據時，他們可能會打破企業的固有的慣性思維和路徑，做得更好、更深。”王小川說。

“我們是出於對數據的共識走在一起的。”張宏江說。“開放能夠讓更多的人加入進來，讓算法研發進展更快。我們也將從中受益。而我們把數據開放出來以後，更多的創業公司也能夠從中受益。它們可以應用數據更快地驗證和產生新的創意、新的應用場景。”

人才培養的缺口和瓶頸，同樣也在困擾著AI領域的創新創業公司。促使更多的人進入AI領域、為AI研發提供動力，同樣也是這次大賽的目標之一。

“依賴高校基礎上的人才供給，還是有缺口的。我有一段時間，非常擔心從互聯網時代走向AI時代時我們會掉隊。”王小川說，“但今天，我還是看到了希望。中國公司跑得非常快，也在反哺高校，推動中小創業公司的進步。今天我們做這件事情的意義就是，讓中國在AI領域里繼續得到推動。”

一個月前，張宏江來到斯坦福大學和伯克利學院交流，最大的感受是，在AI人才方面，中美之間，仍然存在著差距。在研究的領先性和創造性上，在新問題的提出和把握上，國內仍然還有很大的改善空間。“這能培養更多的人才。我希望我們今天做這件事促進中國在這方面的發展。”

而“人才”也是張宏江加入今日頭條後的一項主要工作。據他對黑智透露，在今年1月份成立的今日頭條AI實驗室已經有50人的規模，而在今年年底，則要達到200人的目標。而這次競賽，無疑將更加加強三方在人工智能領域的號召力和影響力，吸引更多的優秀AI才加入。

據悉，本次參賽的優秀選手還可獲得進入三家主辦方工作、實習或獲得投資的機會，並有機會在國際頂級學術會議上分享獲獎心得，得到如上海科技大學教授馬毅、曠視科技首席科學家孫劍、前Google研究院高級管理科學家林德康等十余位人工智能領域頂級專家評委的指導和評價。

以下是李開複、王小川、張宏江對話實錄，經黑智編輯：

蔣濤：是什麽機緣讓三方走到了一起？

李開複：我之前去美國見到了很多美國頂尖的教授，他們都在感嘆自己已經追不上美國互聯網巨頭了，雖然這些教授能力絕對不比谷歌的工程師差，但是他們沒有數據、沒有大的計算力，於是我就想到國內是不是也有類似的機會和挑戰，回來以後就跟王小川、張宏江、一鳴聊了下。

王小川：我們之前跟清華做了9年的聯合研究，不斷把數據輸送給一個機構，當時我們意識到可以把數據公開更多，我還思考給中國高校提供數據。跟李開複老師聊，我們可以做得更大，實現全球的開放，我覺得李開複老師很有號召力，能做的更好，我願意一起來做。

張宏江：我們三個人走在一起是對於數據共同的認識，對於人工智能進展最核心的因素，我們能夠開放出來，讓更多人加入進來，讓他們算法研發上進展更快。

李開複：一開始合作三方都有想法貢獻，我代表創新工場來描述一下。我們是感覺到 ImageNet 已經一年比一年參與的人越來越少，人氣越來越小，數據不夠。一方面我們非常認可李飛飛教授當年做的事情，現在數據已經遠遠不夠了，所以我們從創新工場作為投資者角度，覺得我們應該幫助創業者，怎麽樣盡快速度做一些數據集。

蔣濤：您怎麽看我們提出的數據集難度？

張宏江：當一個問題大面上解決的時候，我們應該認識到更加深入的，我們今年發布的數據更細分的領域，包括人體骨骼，包括其他的。我們希望這些數據能夠把我們AI算法研究帶到下一個高度，能夠分得更細。今日頭條之所以跟王小川、李開複走到一起，我們希望看到更多的學校，通過這些數據集能夠把更好的問題提出來，開發出更好的算法，我們也從中間受益，在學校能有新的解決方案。

王小川：我們有兩個期待。我們希望開放全球，尤其高校使用時，是否能像企業一樣做出很好的研究性成果。有些企業是有思維慣性、有自己路徑的，有可能學校用到數據有不同的方法，有比企業做的更好、更深，這是我的一個期待。

第二個期待，在數據里面發揮真實作用。我們的數據來自於我們自己的問題，給大家一點啟發，也許有更大的發揮。我們給他們的是真實的數據，企業在里面做的工作，有些對標，怎麽能做出不同的算法、產生不同的價值，這是我認為比賽會有難度地方。

蔣濤：對於參賽的選手有什麽樣的期待？他們從中除了獲得數據以外，還能獲得什麽？

王小川：很多學生真的很用心地要做好學術成果，但是缺乏條件，真的希望他們在參賽過程中，也許在一些局部里面做成出成果，甚至超過我們的工程師，反過來能對我們產生刺激。如果他們有想法，有動力，能夠比做出差異化或者更好，這就是非常有價值的。

張宏江：當我們企業自己做業務的時候，我們更聚焦於我們目前的業務，怎麽來服務我們的用戶，當我們把數據開放出來以後，給更多的人，包括學校，學生，另外希望更多創業公司，無論做算法、應用的，能夠看到數據以後對他們也有所幫助，從而對他們提出更新的算法、應用。

李開複：我希望全國每一個教AI的老師和學生都參加這個比賽。前一陣我見了一個老師跟我講，找課題多麽難。我就鼓勵他們，做AI研究還是要做主流的，他們說沒有數據，也沒有足夠的機器。這次我們也希望在AI Challenger能夠徹底解決、而且長期解決這個問題，如果真要做主流AI研究，至少知道自己能做到什麽程度，這樣的數據集一定要嘗試的。一定要鼓勵他們參加，要提升中國整個AI水平，一定要讓每位老師、研究組知道他們現在位置在什麽地方，有多大成長空間，如果基礎知識不夠可以學習，如果數據集不夠我們可以提供數據集等等，真的希望每一位老師、每一位學生都考慮參加。可能有的學生說，看起來很難我不會做怎麽辦？每個領域我們都會提供基礎的算法，比如你不需要從無到有打造完整口語翻譯引擎，是在我們基礎之上去做的。

蔣濤：一般公司會有自己的主研方向，但是還有很多新的場景可以挖掘是嗎？

張宏江：是，尤其當一個小公司開始考慮某一個方向時，很快用數據驗證或者是看到數據會產生新的創意、新的應用場景。

蔣濤：創新工場人工智能研究院的研究方向能分享嗎？

李開複：我們整體看好的方向還是基於大數據的AI，不用搜集更多信息，已有數據就可以產生價值，這些領域在互聯網的電商、廣告、金融、保險、貸款或者是信用卡、券商、量化交易這些領域是最快能夠看到效益的。長期的話我們還是認可無人駕駛作為重要行業發動引擎，再輻射到機器人領域。我們最近看了一些美國的公司。有的類型的公司中國還有欠缺，比如像IBM的Watson，針對企業需求開發數據，在醫療、零售、教育等等領域都會產生價值。

蔣濤：頭條是AI驅動的公司，您對AI人才，包括比賽怎麽看？

張宏江：剛才問到我們為什麽要做大數據、做比賽，對我本人有什麽意義，我覺得這就是一個水漲船高的事，當你有更多數據讓更多人用數據，就能提高他們的水平，就能培養更多的學生。一個月前我到斯坦福和伯克利花了一點時間，就像20年前讀博士一樣跟那邊的學生、老師，讓他們每個人講講他們做些什麽。我整體感覺還是非常非常受啟發的，他們博士平均的水平和他們對問題的把握，做出研究的領先性或者是創造性跟我們整體國內比起來的話，還是平均值要高很多。往外看的話整體水平跟美國還是有差距的，人才還是有差距的。

我認為新的問題把握，提出把握和解決上我們還是有很多很大空間去改善。我記得在以色列3月份去做過一個講座，提到以色列人才最好跟中國合作；那麽AI就像移動互聯網一樣，也要中國和美國雙贏。中國有人，中國有市場，在人才方面還是有事情要做，我希望我們今天做這件事促進中國在這方面的發展。

蔣濤：小川你們的AI戰略是什麽？

王小川：兩年前我們在討論一個事：中國在AI時代會不會落後？我當時有一個擔憂，2年前的數據互訓前10大公司里面中國已經有4家了，5年之後可能一半甚至超過5家都是中國公司。中國公司在互聯網公司，AI走出去我們是處於領先位置。但一旦說到高校，前100所學校只有只有2家，而且不在TOP50里面，高校里面相對落後。背後人才的儲備，不像谷歌這樣的，AI的人滿地都是，我們能夠撈幾個，國外引入幾個，都是很幸福的事情。依賴中國高校基礎人才供給上有差距的，總體上有巨大缺口的。但今天看起來我覺得還是有希望，中國公司跑得真的很快，現在公司都在反哺高校，讓小創業公司能夠有起步。今天做這件事情是有非常大意義的，中國在AI里面就可能繼續推動，5年後就會把美國壓在下面，如果做不到，我們好不容易建起來的全球領先領域又掉回去了。

剛才說到我們戰略來講，我內心有一個東西，今天隨著深度學習的發展，語音和圖像得到了跨越性的發展，語音圖像在深度學習時很快就達到一個新的高度。文字難度大一點，深度學習對文字解決非常有限。語言背後承載的抽象的東西，有知識和推理，語言的內涵更豐富。我們語音識別做了很多，用戶量最大，但我始終認為我們專註點在語言上。我們之前做搜索、輸入法都是以語言為核心的。翻譯在語言里面最簡單，之後還有對話問題、問答問題。所以我們說翻譯切入，我們背後做的是對話的機器和問答的機器，這是我們在AI里面所幹的活。

張宏江：我非常同意王小川說的，我們今天看AI的話，在識別人臉、識別人的行為、識別圖像接近人的精度，但在語言這塊差的很遠。翻譯這件事已經讓我們覺得很頭疼了，真正理解文本、理解對話，從簡單的幾句對話中間推演整體上下文的意義，這需要有更多的研究、更多公司來做的，這也是今日頭條一個重點，大家認為今日頭條是一個內容推薦引擎，其實更重要的是創作的平臺。今天你寫了一篇文章可以通過今日頭條來給你審一下，有沒有語法錯誤、前後歸置，如果都沒有問題的話，給你建議哪個題目比較合適，幫你找一下哪個圖文比較合適。這中間涉及到很深層語言理解，我們也希望跟同行一起，不光是把產品做好，而是AI上的研究。

蔣濤：挑戰賽針對全球的策略是什麽？

李開複：我們一開始希望針對全球，因為我們要讓它快速啟動，是對全球開放的，很多里面大部分參與者是來自中國，我們在美國沒有看到類似的活動，如果我們能夠作為拋磚引玉第一期活動，第二期希望有更多公司貢獻更多數據，我們大家拿出更多資源、金錢和標註，讓它成為真正改變全世界的數據庫。

在美國很多的領域，因為之後就沒有然後，語音、語料方面也就是到了一個極限，很多自然語言都說英文。我覺得有中國的元素讓大家知道世界最重要語言之一是中文，真正願意讓資源拿出來讓全世界參與，這是我們的目標。

蔣濤：會有更好的數據集發布是嗎？

李開複：我們已經在收集更多更有意思的數據。

王小川：我覺得之前是非常落後的，在科研精神、論文、數據分享上遠遠走在美國的後面，所以這個事情是需要改變的。國家提倡，企業不僅要響應，也要非常踴躍地做出自己的貢獻。真正讓數據分享走在前面之後，中國科研才能有一個超越。現在研究語音拿英語做實驗，研究語言也拿英語做實驗，我們國內寫論文，優先他們轉。現在我們要用自己的數據做貢獻，把研究能力提上去。

張宏江：開源這件事情已經做了很多年了，開源社區，各個公司、非盈利機構、盈利機構、大學、個人貢獻，大家已經形成一套規律，我們希望通過我們這次數據分享也能夠引領更多中國企業、中國的個人、中國學校參與進來，把開源的想法能夠真正變成我們的實踐，投入到我們日常工作中去。

（參賽選手可登入活動官網challenger.ai，了解比賽信息、評選細節）

黑智簽名檔