📖 ZKIZ Archives


【南方名記】快手機器算法如何判斷用戶的“上升力”?

來源: http://www.infzm.com/content/124327

2017年4月5日,北京中關村清華科技園,快手CEO宿華在快手總部接受南方周末記者采訪。(南方周末記者 張濤/圖)

(本文首發於2017年4月27日《南方周末》,原標題為《快手的“無形之手”》)

為了讓機器更加公平和公正,快手的工程師們給機器定了一個“公理”,建立了一個數學里的規則社區。

跟大多數有智能分發功能的互聯網產品一樣,快手的產品模式是,把人和信息做精準匹配。

快手CEO宿華介紹,一個快手的新用戶,在冷啟動的時候,機器首先會根據用戶的註冊資料、手機機型、地理位置和周邊用戶等情況,對用戶做一個特征分析。當用戶有了使用行為,瀏覽了內容後,快手的機器會根據用戶的興趣和愛好,升級用戶特征庫,進而給用戶匹配更精準的內容。目前快手的用戶特征庫已經高達數百億條。

如果這個用戶開始發視頻,快手的機器會對內容進行識別,把這個內容匹配和分發給其他可能對這個內容感興趣的用戶。

機器要實現對用戶興趣的精準識別,需要一定時間。比如宿華從小喜歡二胡,這並不是一個大眾愛好,一開始系統並沒有發現他這個愛好,過了一段時間機器才開始給他推薦一些二胡視頻。宿華說,很難說機器用了多久發現這個興趣,沒有一個特別清晰的臨界點和邊界,像交朋友一樣。

由於去中心化定位,所以快手的算法機器的作用就更大,因為一切註意力資源,都交給了機器來分配。這只快手上的無形之手,決定了你的內容被推薦給誰,被推薦給多少用戶,也決定了是否給你直播權限。

這個機器是快手的人工智能技術和核心算法。它的作用是,理解用戶上傳的內容,然後把這個內容跟其他可能對這個內容感興趣的用戶進行匹配。

宿華介紹,快手人工智能技術的核心是三點。一是對內容屬性的理解,二是對人的屬性的理解,三是人與內容的互動。

內容屬性的理解主要是識別照片、文字和視頻內容。目前互聯網行業的技術,在識別文字和照片的技術已經相對成熟。不僅能識別出一篇文章的類別(軍事、體育和娛樂等),還能識別出一篇文章的情感(高興、悲傷、貶低或贊揚)。但視頻內容的識別技術還有待突破,目前只能識別場景(市內室外、酒吧、操場)。

宿華舉例說,一段戀人擁抱的視頻,人能簡單分辨出來這是分別的擁抱。但機器識別不了這個擁抱是久別重逢還是短暫分別,是開心相聚還是悲傷離別。

“機器能識別是一只寵物,但是貓還是狗?是狗的話,什麽狗?這些是更需要突破的技術。”宿華舉例說,他發了一個自己小孩坐在玩具車上打瞌睡的視頻。機器能判斷視頻里有一個孩子和一輛車,但機器目前還識別不了這是真車還是玩具車。

這個視頻又不能簡單地推送給發過孩子視頻的用戶。因為那些用戶可能只喜歡自己的孩子。就算用戶喜歡別人的孩子,但到底喜歡胖孩子還是瘦孩子,這些細節的差異,都需要機器去學習。

為了精準匹配,機器會進一步發現這個視頻里其他細微的特征。

“每一個特征都是機器在猜測,然後做驗證,這是一種弱決策,但很多弱決策疊加在一起之後,就變成了強匹配。”宿華說,這些特征在快手是百億級存量。

對人的屬性理解,則分成短期屬性、中期屬性和長期屬性三塊。其中,長期屬性是出生年月和地區等。中期屬性是興趣愛好。最難識別的是短期屬性,比如一個人搜索“蘋果”,今天可能是想吃蘋果,明天可能是想買一個蘋果手機。這些屬性是瞬息萬變的,也最難識別和判斷。

判斷一個人的短期屬性很難,但也更有價值。曾光明舉例說,一個人是皇馬的球迷,他希望看到皇馬的消息,但可能不太想看到皇馬輸球的視頻,如果你在不恰當的時候把皇馬輸球視頻推送給他,他可能很不高興。

人與內容的互動則指的是用戶之間的點贊、關註和評論等行為。這些數據有助於機器預估一個人的興趣愛好。數據互動最難的是需要時間沈澱、用戶量積累和用戶活躍度。

曾光明說,為了讓機器更加公平和公正,快手的工程師們給機器定了一個“公理”,建立了一個規則社區。

在這個法治社會里,即便是宿華本人,如果沒有上升力的內容,也很難被自己開發的機器所認可。宿華透露說,他的粉絲只有九十多個。

PermaLink: https://articles.zkiz.com/?id=247479

Next Page

ZKIZ Archives @ 2019