隨著人類掌握了越來越多機器學習的算法,它們的構建方式變得越來越重要。
本文系華創資本(ID:ChinaGrowthCapital),授權i黑馬發布。
隨著人類掌握了越來越多機器學習的算法,它們的構建方式變得越來越重要。機器學習的基礎是人類收集的數據,當人類將越來越多的控制權交給運算法則時,若不加以全面的考慮,人工智能也會像它的制造者一樣充滿偏見。
“以貌取人”是不是AI?
據英國《每日郵報》(Daily Mail)報道,幾位中國學者近日對外宣布,人工智能已經在面部識別上發展到新階段:即可以通過照片推斷出女性的性格。或者說,通過訓練數據中的標記,人工智能可以推斷出年輕人對女性“以貌示取人”的標準。
三位來自上海交通大學的研究人員通過百度搜集了3954張女性照片,他們給這些圖片中的人物進行個性描述,所有這些情緒標簽被研究人員分為兩組:S+為“積極”範疇,包括“純粹”、“溫和”、“甜美”、“無辜”、“自然”等;S-為“消極”範疇,包括“做作”、“浮誇”、“虛榮”和“賣弄風情”等等。
試驗中S+級和S-級的女性圖像
他們將照片分為兩類以後,將這些照片輸入卷積神經網絡(Convolutional Neural network),其中2000張照片進入S+類別,1954張照片進入S-類別。
在把這些圖片提供給神經網絡之前,研究人員讓22位男大學生檢查並確定這些標簽是準確的。這些僅從相貌得出的推斷要用於訓練神經網絡,直到這個神經網絡也可以通過相貌推斷性格。
在整個3954張照片中,80%的照片用於神經網絡的訓練,10%的照片用於核對程序,而剩下的10%的照片用於檢驗這個最新的人工智能程序,最終的檢驗正確率達到了80%。
12月中旬,該團隊在在線開源的雜誌“arXiv”上發表了這一研究成果,這篇名為《對有吸引力的女性面孔的心理印象的自動推理》
(Automated Inference on Sociopsychological Impressions of Attractive Female Faces),目前還未在其他有影響力的科學雜誌上公開發表。
《每日郵報》的評論表示:盡管我們承認機器確實擁有了識別人像的能力,但是一想到用相貌判斷性格這個非常主觀的問題,我們就覺得這個研究非常不可接受。
罪犯的長相能不能靠機器判斷?
事實上,這三位研究人員在幾個月前還做出一個通過相貌判斷一個人是否會犯罪的系統,當時也引起了不小的爭議。
這項研究采集了1856名年齡在18-55歲之間的中國公民的照片,其中有730人是罪犯。當然,為了確保數據的準確性,這730個罪犯不包括犯罪嫌疑人,只包括那些已經被確定為罪犯的公民。
用於分析的部分“罪犯”樣本
這些被采集的中國公民的照片全部被輸入到計算機中進行統計,計算機通過4種算法分別對這些照片里的公民面部特征進行準確的分析,根據分析得到的結果來推斷出罪犯的共同面部特征:
那些嘴巴很小、嘴唇微微上翻、兩眼之間距離比較近的人,他們是罪犯的可能性要遠遠高於其他特征的人。
這項技術得到了一些反對者的激烈指責,他們認為,這項技術只是一項最基礎的研究,而且是帶有偏見色彩的。如果把這項技術應用到現實世界中來進行罪犯的認證,將是一件十分荒謬的事情,因為它非常有可能錯誤的識別罪犯,讓好人蒙冤,讓真正的罪犯逍遙法外。
俗話說:“人不可貌相,海水不可鬥量”,僅僅憑借一個人的長相,就給他扣上罪犯或者騙子的帽子,未免太荒謬了。
巧合的是,這項研究成果同樣發表在“arXiv”上,到現在為止同樣沒有被其他專業雜誌正式發表。
人工智能為什麽會被公眾指責?
在2016年9月舉行的一項叫做Beauty.AI的選美大賽上,人工智能計算機對來自全世界年齡在18-69歲的自拍照片進行了收集,並對這些照片進行了評判。當結果公布時,似乎出現了一些意外,因為機器人根本“不喜歡”皮膚黑的人,所以,所有黑皮膚的照片都被篩掉,機器人對於黑皮膚的人存在著一些偏見,當時引起了評論的廣泛不滿。
Beauty.AI所收集的部分女性自拍照
盡管大多數的參賽者都是白皮膚的人,但是,其中大部分的印度和非洲的黑皮膚的人提交的照片全部被篩掉了。可能因為大多數參賽者都是白人,所以人工智能算法也就默認了白皮膚的人比較好看,才導致了黑人照片被篩掉的情況。
Beauty.AI選美大賽的首席科學官Alex Zhavoronkov說:“如果在你采集的數據庫中,沒有足夠多的不同膚色的數據,那麽人工智能計算機機器人就會產生有偏見的結果。”
實際中的選美比賽
所以,如果想要利用一個算法對一組數據進行識別時,如果某種類型的數據不夠多,就有可能會產生一個有偏見的結果。
事實上,同樣的問題已經在谷歌的“Deep Dream”實驗中得到了體現。2015年6月,谷歌利用人工神經網絡創造出可以識別不同圖像內容並自行加工作畫的“Deep Dream系統”,為互聯網開拓了又一個“魔性”的時代。之所以這麽說,是因為這個人工智能系統真的是被玩壞了……
這幅梵高所作的《星月夜》,里面的星星和建築都已經被各種不知名的狗、汽車、小鳥和眼鏡所占據,十足一副恐怖電影的截圖,這種超現代的畫風簡直不能再詭異了。
這幅美國國旗也不能幸免,全被“Deep Dream”畫成了狗、蟲和人的腳,當然還少不了各種奇怪的花紋、亮斑和眼鏡……看完上面這兩幅圖,簡直想不起它們原來到底是怎樣的了,簡直洗腦之極!那麽問題就來了,到底這個先進的具有自學能力的智能系統到底是怎樣畫出如此魔性的作品的呢?
谷歌自己回答了這個問題,原來,該算法是在開源的數據庫ImageNet進行訓練,它里面有成千上萬張的狗照片,所以AI變得更容易在其他情況下識別狗模式。
已經有很多人工智能的研究者遇到很多之前不一樣的問題,而這些問題到現在也沒有在本質上得到解決。首先互聯網的博弈性特別強,它是動態而不是靜態的,這在互聯網廣告里體現的更加明顯。此外,互聯網的數據量要比語音和圖像大的多,但是這種大數據的狀態很模糊,實際數據反而更稀疏,應該如何解讀?
回到之前谷歌“Deep Dream”遇到的問題,很多人觀察過自己的孩子,他們看到動物一眼就能認出來,而之前孩子的經驗可能只是從圖畫書上看到已經變形的動物圖片,而機器目前還只能用海量的有效數據“餵”出來才能實現圖像識別。
所以,在讓機器變得更聰明之前,是不是應該先搞清楚人到底是怎麽做到這些的?