AI解放人工鑒黃師

Random Tags

到德學行會又嶼南空軍一號市銷乜食撇鄧又串直氣家美除牌股滿牛肉茶農的共逼曾耐用品張學友亂套們也 TNG 仚生卡刷違泊將掀媒稱雪拋臺生美力硬茬鷹調連皮深不轉佳麼自奈拋碩輔義才男菲期加傑想馬業坎警該誇名作老汪轟影磊發愛煮

隨著AI（人工智能）的發展，人工鑒黃師逐漸從鑒黃行業里被“解放”出來。

“AI鑒黃師每天可審核數億張圖片，識別準確率高於99.5%。”阿里安全部高級算法專家威視向第一財經記者舉例稱，如果一天要審核4億張圖片，單純由人工來審，一人一天審1萬張，需要4萬人，而AI鑒黃只需將其中20萬張可疑的圖片篩出來，由人工再審一道，只需要20人即可。

傳統的人工鑒黃師通過一雙肉眼鑒別色情圖片和視頻。聽起來像是“福利”，但實際上並不輕松。如今，伴隨著互聯網上社交媒體、直播、短視頻的發展，每天光上傳的圖片就超過10億張，發文數量超過5億條，不少色情、暴力等內容充斥其中。

2015年10月，阿里巴巴“綠網”上線，用人工智能識別網絡上包括色情、暴力在內的違規信息，阿里AI鑒黃師應運而生。通過人工智能、深度學習和大數據樣本等技術，阿里巴巴的AI鑒黃師訓練識別千萬張正常圖片與色情圖片，最終生成一個智能鑒黃模型。

第一財經記者了解到，阿里的鑒黃AI做的色情圖片檢測，從原理上來說，就是一個典型的圖像分類問題。當前的解決方案是標註樣本後，使用深度學習技術訓練一個人工神經網絡。具體步驟包括明確分類標準→收集樣本→樣本打標→模型訓練，四個步驟。其中前三個步驟主要由人工完成。

“我們要做的就是拿圖片去‘餵養’它，讓它不斷學習，變得越來越聰明。”威視表示，最初在獲取樣本時，阿里篩選了近2000個網站、6000多萬張色情圖片，經過去重，標註1300多萬張高質量的色情圖片。之所以嚴格把握樣本打標的過程，是因為深度學習，對高質量的標註數據有很高的要求。數據標誌質量越高，最後模型的精度就會越高。

由人類經過千挑萬選建立起來的高質量“色情圖片”數據庫，最後交由模型訓練。威視表示，GPU機器單機單卡的情況下訓練時間要近一個月，後來阿里團隊更換了網絡結構並實現了多機多卡訓練，將千萬級別樣本的訓練時間控制在一周左右。

不僅僅在識圖領域，威視告訴記者，AI鑒黃還覆蓋到了語音、視頻等多媒體領域，目前已經可以識別中文、英文、日文、俄文等語言，還可以識別中國多省份方言，無語義的呻吟聲也能識別。

這離不開阿里在AI領域的布局。

2017年底，阿里雲總裁胡曉明首次全面揭幕了阿里產業AI布局和生態：以阿里雲為基礎，從家居、零售、出行、金融和智能城市、智能工業六大方面展開的產業布局，以及從視覺、語音、算法到芯片構建的立體合作夥伴生態。

在學術和開發者方面，在阿里的體系中，已經有2所大數據國家工程實驗室，天池平臺聚集了11萬+數據開發者，AUCP（阿里雲大學合作計劃）計劃讓大數據、AI相關課程部署到了307所中國大學。

第一財經記者了解到，在時間分配上，阿里很多科學家都是三三制，跟業務的緊密溝通占到三分之一的工作時間，還有三分之一是用來帶領團隊，另外三分之一用來跟蹤全球最新、最前沿的技術發展趨勢，為團隊規劃研發方向。

此內容為第一財經原創。未經第一財經授權，不得以任何方式加以使用，包括轉載、摘編、複制或建立鏡像。第一財經將追究侵權者的法律責任。 如需獲得授權請聯系第一財經版權部：
021-22002972或021-22002335；[email protected]

責編：彭海斌

PermaLink: https://articles.zkiz.com/?id=267551

📖 ZKIZ Archives

Random Tags

AI解放人工鑒黃師

責編：彭海斌