📖 ZKIZ Archives


AI解放人工鑒黃師

隨著AI(人工智能)的發展,人工鑒黃師逐漸從鑒黃行業里被“解放”出來。

“AI鑒黃師每天可審核數億張圖片,識別準確率高於99.5%。”阿里安全部高級算法專家威視向第一財經記者舉例稱,如果一天要審核4億張圖片,單純由人工來審,一人一天審1萬張,需要4萬人,而AI鑒黃只需將其中20萬張可疑的圖片篩出來,由人工再審一道,只需要20人即可。

傳統的人工鑒黃師通過一雙肉眼鑒別色情圖片和視頻。聽起來像是“福利”,但實際上並不輕松。如今,伴隨著互聯網上社交媒體、直播、短視頻的發展,每天光上傳的圖片就超過10億張,發文數量超過5億條,不少色情、暴力等內容充斥其中。

2015年10月,阿里巴巴“綠網”上線,用人工智能識別網絡上包括色情、暴力在內的違規信息,阿里AI鑒黃師應運而生。通過人工智能、深度學習和大數據樣本等技術,阿里巴巴的AI鑒黃師訓練識別千萬張正常圖片與色情圖片,最終生成一個智能鑒黃模型。

第一財經記者了解到,阿里的鑒黃AI做的色情圖片檢測,從原理上來說,就是一個典型的圖像分類問題。當前的解決方案是標註樣本後,使用深度學習技術訓練一個人工神經網絡。具體步驟包括明確分類標準→收集樣本→樣本打標→模型訓練,四個步驟。其中前三個步驟主要由人工完成。

“我們要做的就是拿圖片去‘餵養’它,讓它不斷學習,變得越來越聰明。”威視表示,最初在獲取樣本時,阿里篩選了近2000個網站、6000多萬張色情圖片,經過去重,標註1300多萬張高質量的色情圖片。之所以嚴格把握樣本打標的過程,是因為深度學習,對高質量的標註數據有很高的要求。數據標誌質量越高,最後模型的精度就會越高。

由人類經過千挑萬選建立起來的高質量“色情圖片”數據庫,最後交由模型訓練。威視表示,GPU機器單機單卡的情況下訓練時間要近一個月,後來阿里團隊更換了網絡結構並實現了多機多卡訓練,將千萬級別樣本的訓練時間控制在一周左右。

不僅僅在識圖領域,威視告訴記者,AI鑒黃還覆蓋到了語音、視頻等多媒體領域,目前已經可以識別中文、英文、日文、俄文等語言,還可以識別中國多省份方言,無語義的呻吟聲也能識別。

這離不開阿里在AI領域的布局。

2017年底,阿里雲總裁胡曉明首次全面揭幕了阿里產業AI布局和生態:以阿里雲為基礎,從家居、零售、出行、金融和智能城市、智能工業六大方面展開的產業布局,以及從視覺、語音、算法到芯片構建的立體合作夥伴生態。

在學術和開發者方面,在阿里的體系中,已經有2所大數據國家工程實驗室,天池平臺聚集了11萬+數據開發者,AUCP(阿里雲大學合作計劃)計劃讓大數據、AI相關課程部署到了307所中國大學。

第一財經記者了解到,在時間分配上,阿里很多科學家都是三三制,跟業務的緊密溝通占到三分之一的工作時間,還有三分之一是用來帶領團隊,另外三分之一用來跟蹤全球最新、最前沿的技術發展趨勢,為團隊規劃研發方向。

此內容為第一財經原創。未經第一財經授權,不得以任何方式加以使用,包括轉載、摘編、複制或建立鏡像。第一財經將追究侵權者的法律責任。 如需獲得授權請聯系第一財經版權部:
021-22002972或021-22002335;[email protected]

責編:彭海斌

PermaLink: https://articles.zkiz.com/?id=267551

Next Page

ZKIZ Archives @ 2019