ZKIZ Archives


湯曉鷗談AI的明天:深度學習的三大核心要素,以及在中國創業要像百米賽跑

來源: http://www.iheima.com/zixun/2017/0521/163216.shtml

湯曉鷗談AI的明天:深度學習的三大核心要素,以及在中國創業要像百米賽跑
黑智黑智

湯曉鷗談AI的明天:深度學習的三大核心要素,以及在中國創業要像百米賽跑

中國創業就像跑百米一樣,要跑的非常快,第一個到達終點才可以活下來。

5月20日,以“科研·產業·融合”為主題的2017CCF青年精英大會在北京召開。本屆大會由中國計算機學會主辦,科技創新產業服務平臺Xtecher協辦。

中國工程院院士趙沁平、香港中文大學教授湯曉鷗、百度創始七劍客之一雷鳴、清華大學教授鄭緯民、IEEE Fellow陳熙霖、中國人民大學教授杜小勇、中國計算機學會秘書長杜子德、中國人民大學信息學院院長文繼榮、紅杉資本合夥人周逵、高榕資本創始合夥人嶽斌、寰景信息董事長陳擁權、CCF YOCSEF學術委員會學術秘書陳健等近五十位學術界、產業界、投資界大佬和數百位計算機領域的科研人才出席了此次活動。

本次CCF青年精英大會進行的“思想秀技術秀”上,共有22位青年學者、科技人才展示了前瞻性的思想觀點以及最新的技術成果。最終,評委會選出了2位優秀青年赴 CNCC(2017中國計算機大會,將於10月26-28日在福州舉行)進行演講。

此外,大會還公布了“青竹獎” 獲獎名單,表彰推動科研進步的青年學者,鼓勵產學研各方面創新人才。“青竹獎”由中國計算機學會牽頭,聯合Xtecher 共同發起,經過評選委員會李開複、王恩東等17位委員的專業評審,最終評選出了6位獲得“青竹獎”的最具潛力青年精英:碼隆科技聯合創始人兼CEO黃鼎隆、真格基金合夥人兼首席投資官李劍威、清華大學芯視界(北京)科技有限公司創始人兼董事長鮑捷、中國科學院計算技術研究所研究員張雲泉、雲從科技公司創始人周曦、物靈科技公司聯合創始人兼CEO顧嘉唯。

在會議上,香港中文大學教授湯曉鷗做了主題為《人工智能的明天,中國去哪?》的特邀報告。湯曉鷗在演講中,講述了人工智能和深度學習的發展,並指出,深度學習的三大核心要素,就是算法設計、高性能的計算能力,以及大數據。

湯曉鷗表示:“無論人工智能怎麽樣發展,年輕人選擇創業還是做研究,其實我們要做的就是三件事情:第一,我們需要花時間把基礎打好。剛才趙沁平院士講得很好,就是要堅持,真正花時間把人工智能的基礎打好。第二,我們要創新,要做新的東西,不要老是跟在別人後面走。第三,我們要把 ‘漂在上面的東西’落地,最終實現產業化。”

以下根據湯曉鷗演講實錄整理:

今天我講的題目是:《人工智能的明天,中國去哪兒?》我選了一個比較大的題目,希望能壓住場。原來我想的題目比這個還大:人工智能的明天,地球去哪兒?後來發現“一帶一路”會議剛剛開完,地球去哪兒的問題已經解決了,我還是回到我的小題目——中國去哪兒。

不管是中國人工智能接下來如何發展,還是年輕人如何創業或者做研究,我們要做的事情也就是這三件:

第一,要堅持,要花時間把基礎打好。

第二,要做創新。要做新的東西,不要老是跟在別人後面走。

第三,要把飄在上面的東西落地,要產業化。

今天從我們實驗室的研究成果和公司做的產品,來講講我對這三個方面的理解。

人工智能和深度學習的突破

首先,什麽是人工智能?這個概念現在已經非常難定義了,大家幾乎把所有的事情都往人工智能上靠。從我的理解來講,人工智能真正落地的部分就是深度學習。因為以前的人工智能確實是在很多情況下用不起來,人手設計的智能還是比較難超越人來做某一件事情。而有了深度學習之後,我們可以把這個過程變成一個數據驅動的過程——當做某一件特定事情時數據量及參數量大到一定程度時,機器就可能在做這件事情上超過人類。很多現實中落地的產品化的東西,大部分是深度學習做出來的。深度學習做的東西,成功的案例比較多,一方面是在語音識別領域,另外可能更多的是視覺這方面,所以大家可以看到很多計算機視覺方面新的成果。我今天給在座講的人工智能其實也就是計算機視覺,是用深度學習去做計算機視覺,就變得更窄了。

湯1

 

大家可以看到“深度學習“”這個詞在谷歌上的搜索情況:從2006年才開始有人搜索這個詞,是Hinton(黑智註:深度學習的開山鼻祖Geoffrey Hinton)和Yann LeCun(黑智註:Facebook人工智能研究院院長、卷積神經網絡之父)們那個時候發明了這個算法。這中間很長一段時間,2006-2011年曲線是很平穩的,只有學術界才會去搜索這個詞語,才知道這個事情。2011年突然之間搜索量開始呈現指數型增長,各行各業都在討論深度學習,現在搜索量已經非常的巨大。這條曲線形象的演示了深度學習的爆發過程。

深度學習到底在做什麽事情?實際上他所做的事情抽象出來是比較簡單的,就是在做一個從X到Y的回歸、或者說從A到B的Mapping(對應)——你給它一個輸入,我怎麽樣給出一個對應的輸出?特殊的地方就是深度學習把這件事情做得非常非常好。以前也有其他算法可以做,只不過一直做不過人,現在深度學習做到了極致。比如說給了一張人臉照片,它就可以給你對應出這個人的名字;給你一個物體的形狀,它就可以告訴你是什麽物體;給一個車的行駛場景,我就可以給你輸出這個車應該往哪兒拐;給一個棋局,它能算出下一步怎麽走;給一個醫療的圖像,能幫你判斷這是什麽病……實際上就是這樣的一個過程。不要把人工智能想象成可以超越人類,可以控制人類,這些都是所謂的“好萊塢的人工智能”或者想象中的人工智能,真正人工智能在現在這個階段其實就是做這麽簡單個事。當然做成這個簡單的事情其實已經很不簡單了。

最近這幾年深度學習確實在學術界、工業界取得了重大的突破。第一個突破是在語音識別上。Hinton和微軟的鄧力老師,在2011年用深度學習在語音識別上取得了巨大的成功。昨天可能大家在微信也刷屏了,我們中國科大畢業的師兄鄧力老師從微軟出來到頂級對沖基金工作。我的理解這也是一個A to B的mapping 的過程:把鄧老師的深度學習的經驗等內容都輸入到對沖基金的算法里,這個對沖基金的錢就自動Map到了鄧老師口袋里。

語音識別取得了巨大成功以後,緊接著在視覺方面又取得了重大突破。2012年時,Hinton在ImageNet上將圖像識別一下子提高了十幾個點,以前我們都一年一個點在推,他一年就推了十年的進步,在學術界引起了很大的轟動。2014年我們團隊做人臉識別,通過深度學習,做到算法首次超過人眼的成績。

最後,在2016年,還是谷歌最厲害,每年120億美金的研發投入沒有白投,下了一盤棋叫AlphaGo,這盤棋下完之後人工智能就不需要我們解釋了,大家忽然都明白了,人工智能原來是這麽回事兒,就是下棋。

接著人工智能在自動駕駛領域也取得了一些重大的突破。現在比較熱門的是醫療影像方面,借助人工智能進行診斷。

深度學習的三個核心要素

深度學習有三個核心的要素:

.學習算法的設計,你設計的大腦到底夠不夠聰明;

.要有高性能的計算能力,訓練一個大的網絡;

.必須要有大數據。

接下來分享我們在深度學習方面做的一些工作。我們從2011年開始做這項工作,一開始沒有開源的框架,所以要自己做很多的工作。做的時間長了,我們就做了一套Parrots系統,這個系統目前還不是開源的。

我們用這套系統訓練的網絡可以做到非常深,原來AlexNet是8層,後來GoogleNet在2014年做到了22層,後來Resnet做到了150多層,去年我們的PolyNet做到了1000多層。大家可以看到這個網絡發展趨勢,越來越深。這是我們設計的1000多層的網絡,比較細的線就是整個網,中間一個格往下走,放大出來的部分就是網絡的細節結構,這個網叫做Polynet,Dahua團隊的這個網絡設計和Facebook的Kaiming團隊的Resnet,在圖像分類上做了目前為止全球最好的結果,最後基本上成了我們實驗室出來的兩個學生之間的競賽。這個網絡的最後形狀有點像 DNA 的雙螺旋。

在物體檢測上大家也可以看到這個進步速度,2013年一開始的時候,200類物體的平均檢測準確率是22%,但是很快谷歌可以做到43.9%,我們做到50.3%,緊接著微軟是62%,現在我們做到最好結果是66%。這個速度是幾年之內翻了三倍,也是深度學習的力量,我們這方面的工作是Xiaogang和Wangli團隊做的。

我們訓練出來這樣一個大腦,可以把它應用到各個方向,做出很多不同領域的不同技術。在人臉方面我們做了人臉檢測、人臉關鍵點定位、身份證對比、聚類以及人臉屬性、活體檢測等等。智能監控方面,做了人,機動車,非機動車視頻結構化研究,人體的屬性,我們定義了大約70種。人群定義了90多種屬性。下面這些是衣服的搜索、物體的檢測、場景的分類和車型的檢測,車型檢測我們標註了幾千種車型的分類。在文字方面,小票的識別、信用卡的識別、車牌的識別,這些都是由深度學習的算法來做的。同時在圖像的處理方面,在去霧、超分辨率、去抖動、去模糊,HDR、各種智能濾鏡的設計都是用深度學習的算法,我們基本上用一套大腦做很多的任務。

深度學習另外一個門檻就是高性能計算,以前高性能計算大家都是講的CPU集群,現在做深度學習都是GPU,把數百塊GPU連接起來做成集群目前是一個比較大的門檻。我們在北京做了三個GPU的集群,在香港做了一個大的集群,用這些集群,原來一個月才能訓練出來的網絡,加速到幾個小時就能訓練完,因此我們訓練了大量的網絡。

深度學習第三個門檻就是大數據,如果把人工智能比喻成一個火箭的話,大數據就是這個火箭的原料。

我們與300多家工業界的廠商客戶進行合作,積累了大量的數據,數億的圖片,我們有300多人的團隊專門做這個數據標註。包括幾千類車型的數據、人群的大數據以及衣服的搜索和分類的數據庫,這些對於學術界以及工業界都是很有益的。實際上谷歌所做的數據體量更大,他們和National Institutes of Health (NIH)合作很快會開放一個非常大的醫療圖像的數據庫。在醫療方面我相信大家很快會有大量的數據進行處理,這個時候對於我們的高性能計算又提出了一些新的要求。

實驗室有幸對深度學習研究較早。在計算機視覺包括人臉檢測等各個方面起步較早,這里列了18項計算機視覺領域由我們在全球最早提出來深度學習解決方案的問題,也相當於對創新的一些貢獻。我們被評為全亞洲唯一的人工智能研究十大先驅實驗室,非常榮幸跟MIT、斯坦福、伯克利這樣的名校,以及深度學習的頂級工業實驗室臉書、谷歌的深度學習負責人團隊等等在一起獲選。我們也在研究一些現在沒有的技術,比如說,大家可能以前見過很多依賴深度攝像頭才能做的人體跟蹤算法(比如Kinect)。目前我們團隊做的算法,用很便宜的單個RGB攝像頭就可以做到同樣效果,這是非常不容易的,尤其要做到實時,在智能家居,自動駕駛等方面都有很大的應用前景。

下面這個工作是去年做的,根據一張照片里兩個人的姿勢,可以自動判斷兩個人之間的情感,是友好的還是敵對的。同時可以根據兩個人的表情也可以判斷兩個人的關系。所以以後如果你把你的照片上載到互聯網上,實際上我們可以判斷出來跟你一起照相的這個人和你具體是什麽關系。

這有什麽用途呢?大家經常會把照片放到網上,我們用這些照片分析這些人,如果你跟一個非常有名的人,或者跟一個非常有錢的人照了一張合照,那你這個人可信度可能就增加。或者你和一個罪犯、或者信譽不好的人拍了一張照片,你的可信度就下降。我們用這項技術可以做金融的征信,把不同人的關系網建立起來,把信用度傳遞出去。這個關系問題還可以做得更多,把一張圖片任何物體之間,哪個在上面,哪個在後面,互相是什麽關系,可以由一張照片判斷出來。

下面這是最新的工作,我們以前定義了70種人的特性,根據這個特性進行視頻搜索。現在定義一個新的搜索模式,是用自然語言來搜索,即我說一段話來描述這個人,把這個人描述出來以後用這段話去搜索我要找的這樣一個人。實際上,其中涉及的信息量是很大的,尋找也更加精準,我們已經建立了一個大的開源的數據庫來幫助大家做這個研究。

在這些數據中,從這些自然語言里面我們可以抽出不同的詞,用詞來描述不同的人,其信息量巨大,搜索準確率也大幅度提高。這是具體的監控方面應用的結果。用自然語言做人的搜索。大家可以想像一下在醫療上的應用,如在多模態的醫療診斷上。一個是醫療的圖像,一個是醫生的文字診斷,可以實時的識別出來,進行自然語言的分析,把兩個進行結合再進行診斷。

下面這個也是一項新的研究工作,根據這個Video,識別內容,判斷劇情屬性。以泰坦尼克號電影為例,你可以看到那兩個曲線,現在是浪漫的場景,代表浪漫的線就上來了,如果是災難,那個災難的綠線就上來了,實時根據這個內容判斷劇情,這也是去年的工作。

今年目前團隊又做了一個新的工作,可以根據電影的實時計算分析,來理解判斷這里面的劇情,可以把一個演員,在整個電影里面,在什麽地方出現,在那段時間是什麽劇情,用自然語言描述出來,把整個電影的內容分析,用計算機視覺和自然語言自動可以分析出來了。將來可以用來分析和插播廣告,還可以直接用自然語言搜索各種不同的片段。

我們還有一項工作是超分辨率,就是把很小的圖像放大,最大化還原細節。這是好萊塢電影的圖像,視頻抓到一個很模糊的嫌疑罪犯的圖像,然後把它實時的放大變得很清晰。這只是諜影重重電影上演的效果,還是很震撼的。

2016年的時候,推特跟谷歌密集發表了幾篇關於超分辨率的文章,其核心就是深度學習。而我們早於他們,就已經做了大量先期研究。我們在2014年發表了全球第一個用深度學習研究超分辨率的論文,在2015年又發表了一篇相關文章,2016年發表了兩篇,取得了更大的突破,而在2017年緊接著發表了三篇。我們的Cavan教授團隊是第一個做的,也是目前做的最好的。目前超分辨率已經走向實時以及效果實用化的階段,利用這項技術在某些實時監控,公安監控攝像頭可以把人看的比較清晰了。

而在自動駕駛上,我們也做了大量研究,六大類別的技術,有30多個細分核心技術。我在這里面就簡單舉幾個例子做演示。比如車的檢測、行人檢測、路道線的檢測、實時的場景分割……我們也做到前端,用前端的芯片做實時的效果。

這是人臉的布控系統,目前已在很多城市實時布控了。還有百米之外抓人,百米之外看到一個目標拉近然後進行人臉識別。

這是視頻結構化,把視頻里面的人,機動車,非機動車及其特性都檢測出來了,自動標註出來了,這樣把整個視頻變成了文檔,就可以進行文檔性的搜索。

下面這些也都是我們所做的技術的落地產品:在中國移動的實名認證系統,去年給中國移動做了三億人的實名認證;小米的寶寶相冊;華為Mat8的智能相冊;FaceU、SNOW等做的特效;微博相機;這絕大部分是基於我們的人臉識別、人臉跟蹤等技術做出來的。實際上在人工智能落地方面我們做了許多的落地產品,去年的雙創活動中幾百家企業里面選了兩家代表中國人工智能,右邊是百度,左邊是商湯科技。

因為主辦方希望我講一下學術研究和創業的關系,我最後總結一下,在中國創業是一個什麽感受?我覺得中國創業就像跑百米一樣,要跑的非常快,第一個到達終點才可以活下來,但是這個跑道並不是塑膠跑道,而是滿地都是坑的土路。這場賽跑有兩個結局,一個是全力跑到最快,另外一個是剛起步就掉到坑里了。創業的困難是一定存在的,年輕人要不要創業?盡管路上的坑比較多,但還是可以試一試。

另外用什麽錢創業也是個問題?什麽錢可以用?什麽錢不可以用?我的忠告是,首先父母的錢你不可以用,那是他們養老的血汗錢;你自己掙的錢可以用,你的第一桶金可以用,你們還年輕,用光了可以再去掙。投資人的錢是可以用的,因為大部分都是有錢人的錢,我覺得劫富濟貧人人有責,所以如果大家一定要創業那就創吧。

黑智二維碼

歡迎關註黑智

CCF青年精英大會湯曉鷗深度學習人工智能
贊(...)
文章評論
匿名用戶
發布
PermaLink: https://articles.zkiz.com/?id=250423

商湯科技創始人湯曉鷗:商湯不是燒錢的公司,做第一個吃“蘋果”的人

完成6億美元的融資的“獨角獸”商湯科技正在進一步探路商業化。
4月25日,商湯科技推出多款AI產品,包括原創的AR開發平臺SenseAR,基於深度學習的智能內容審核方案SenseMedia、商湯首款智能汽車產品DMS駕駛員監控系統SenseDrive 等多款人工智能產品,嘗試促進人工智能與各行業的深度結合。

 

商湯科技聯合創始人及CEO徐立表示:歷史上,所有時代都是以科學技術的突破命名,蒸汽時代、電力時代、信息時代都是如此,並且這些技術具有通用性、實用性、持久性,並能與各行各業深度結合。

因此,在人工智能技術飛速發展的過程中,但人工智能的落地還處於早期階段,通過構建平臺、生態,以期快速在各行各業釋放能量。

以SenseAR開發者平臺為例,目前該平臺已與OPPO合作推出以SenseAR為引擎的OPPO AR開發者平臺,並吸引京東、王者榮耀等app入駐。除電商、遊戲等應用領域以外,未來AR在美體、互聯網娛樂、醫療美容、家居、教育、旅行等領域都有巨大應用空間。

 SenseMedia是基於深度學習的智能內容審核方案,能夠真正讀懂視頻,實現低成本、高效益、高精度地視頻審核與內容抓取,有效過濾色情、暴力等有害信息,這在很大程度上節約了內容審核人員的精力,一般而言,內容審核人員的工作較為繁冗,在正常工作時間內需要審核5000張圖片或者8小時視頻時長。

在AI與汽車行業的結合方面,商湯此番也推出了首款智能汽車產品SenseDrive DMS駕駛員監控系統,通過深度學習技術和嵌入式芯片優化技術結合,實現對駕駛員疲勞駕駛、駕駛分心、危險動作等駕駛員狀態的實時智能檢測與提醒。

商湯科技創始人、香港中文大學信息工程系教授湯曉鷗在演講中表示:“學術的東西,如果不能落地也沒有什麽用,好在我們不是燒錢的公司,是能賺錢的公司,可以自負盈虧,我們的融資不是用來燒的,而是做偉大的事。”

湯曉鷗還列出了Facebook、蘋果、谷歌發布AR平臺的時間(分別為2017年的4月、6月、9月),商湯切入這一領域的時間則為2016年的1月。湯曉鷗稱商湯是“第一個吃蘋果的人”。

“很多互聯網公司喜歡拿狼性作為企業文化,但我們不同,我們公司的文化是羊,商湯是很有同情心,很有同理心的公司。但羊也有缺點,比如說羊群效應,因此我們想做不一樣的羊——黑羊(Black sheep),去做別人沒有做過的事情,甚至是別人想不到的事情。”湯曉鷗笑言。

據悉,商湯科技在2017年已實現全面盈利,營收相比2016年增長420%。

據第一財經記者了解,商湯目前的營收來源的四個方向:安防、汽車、手機以及新型業務。據悉,最大的一塊收入來自智能安防領域,占整體營收的30%。此外,60%來自於智能汽車、手機移動互聯網方面,剩下10%來自於新型業務。新型業務中,包括了遙感、機器人、視頻等業務。

不同於此前對單個設備的智能化,商湯目前計劃將智能化的技術拓展至城市級別,在基礎的架構上,還需要更大的投入。

縱向來看,商湯計劃從單個產品,到形成產業鏈、生態的布局,做產業垂直整合。同時形成產品矩陣,此前商湯的產品都是一個點一個點的呈現,未來將在產品體系化、應用落地以及技術強化上做文章,放大產業生態的效應。

“當做得行業越多,行業之間形成交叉成熟效應的機會就越多。”徐立稱。

 

 

PermaLink: https://articles.zkiz.com/?id=263081

Next Page

ZKIZ Archives @ 2019