導讀 : 不過從我自身作為一個盲人用戶來說,能夠知道照片的場景已經讓我的滿意度從零提升到了 50 %,這可是一個巨大的跨越。

視力障礙用戶也有使用社交網絡的需求,他們雖然能夠通過讀屏軟件獲得文字信息,但是卻看不到朋友們貼的圖片,Facebook 的自動替代文本功能將幫助他們感受圖片之美。

Facebook 如今已經開始使用人工智能為信息流中的圖片自動生成標題,以幫助那些視力障礙人士「看到」圖片內容。

這個功能被稱作自動替代文本,當它與文本-語音引擎相互配合的時候就可以為使用 Facebook 的盲人們帶去不一樣的體驗。該功能基於深層神經網絡技術,系統可以識別出照片里的特定對象,從車到船,從冰淇淋到比薩餅都可以一一分辨。除了辨別照片中的物品之外,它還能找出照片中人的面部特征,比如說微笑上翹的嘴角、大胡子以及戴眼鏡。在這些微觀識別的基礎上,該功能還能夠判斷出圖片中一般意義上的大背景,確定照片中是否包含了陽光、海浪或者雪景。當一張圖片被完全識別出來之後,文本語言引擎就會大聲地為盲人用戶讀出圖片上的內容。

Facebook 一位名為 Matt King 的員工在去年秋天就向我介紹這一產品原型。 King 今年 49 歲,自己就是一位盲人,雖然他也坦承這一服務遠非完美,但是卻已經能夠明顯改善視力障礙人士的使用體驗。這話著實不錯, King 向這個系統展示了一張他的朋友騎行歐洲的照片, Facebook 的人工智能描述出了這張照片顯示的是戶外場景,包括了草地、綠樹與雲朵,附近還有一片水域。如果在以前這張照片出現在 King 的信息流中,他能夠知道的僅僅是朋友剛剛發布了一張新照片。

「我夢想著這個人工智能系統除了描述照片所處場景之外,還能告訴我照片里包括了 Christoph 和他的自行車,」 King 希望能夠不斷改進這一系統,「不過從我自身作為一個盲人用戶來說,能夠知道照片的場景已經讓我的滿意度從零提升到了 50 %,這可是一個巨大的跨越。」

就像 King 所說的那樣,該系統並不總是能夠描述得準確無誤,並且它現在還不能根據照片內容生成一個完整有邏輯的句子。但是路要一步步走,這些功能在將來都會得到完善,已經有其他公司使用了深層神經網絡為視力殘障人士服務,且走得更遠。這一功能雖然並不完善,但是推出它已經是意義重大。而 Facebook 也表示,在該語音讀圖功能上線後,已經有超過5萬人通過文本語言引擎使用了該服務。

文章來源:Wired,TECH2IPO / 創見 陳錚 編譯,首發於創見科技