大數據做徵信

2014-12-01 NCW

ZestFinance所擅長的，是在真真假假、或有或無的數據海洋里“做遊戲”，只要池子里的變量多到一定程度，模型給出的分數就會趨於穩定◎ 財新記者李小曉文

lixiaoxiao.blog.caixin.com

作為“70後 ” ，ZestFinance 的 CEO 道格拉斯·梅里爾（Douglas Merill）在硅穀已是“元老”級人物。他曾是 Google 公司的首席信息官，還曾在百代唱片集團任數字部總裁。2010年，他和來自金融圈的肖恩 · 布德（Shawn Budde）聯合創立了 ZestFinance（相關報道見本刊2014年第34期“傳統信用評分挑戰者” ）。歐美傳統銀行通常採用對所有人都適用的線性回歸模型，其中包含性別、出生地等20個左右變量，對每個人都簡單化處理，以打分卡的形式評分。ZestFinance 採用的變量則多達7萬個，採用的算法也不是線性回歸模型，而是來自Google的大數據模型。梅里爾接受財新記者專訪時表示，當有一個20個變量的基礎模型時，如果這些數據都真實有效，那這個模型就很好用。但問題在於，變量往往有缺失，或不准確。此時，模型給出的分數就不準確了。 “美國之所以有25% 的人沒有徵信記錄，正是因為這些人數據不全。 ”目前，共有400萬美國人直接通過ZestFinance 申請信用評分，另外在銀行等金融機構通過 ZestFinance 模型獲得信用背書的人數則遠遠大於該數字。ZestFinance 還有另一個重要組成部分，即 ZestCash 貸款平台。ZestCash 類似一家小貸公司，直接給那些沒有銀行賬戶或者信用記錄不好的人提供小額貸款。目前，ZestCash 直接發放貸款的客戶數量約為10萬人。10個模型和7萬個變量ZestFinance 所擅長的，正是在真真假假、或有或無的數據海洋里“做遊戲” 。梅里爾相信，只要池子里的變量多到一定程度，模型給出的分數就會趨於穩定。“舉個簡單的例子，如果你僅買一隻股票，你的收入就全都取決于這只股票的漲跌；但如果你分散投資1000只股票，從統計學角度，即使其中一隻股票暴跌，也不會對你的整體資產走勢產生影響。 ”同理，當變量足夠多時，即使其中個別變量錯誤或缺失，也不會對最終結果產生實質影響。 “所以，只要數學邏輯正確，採用的變量越多，模型就越准確。 ”梅里爾表示。加拿大傳播學家麥克盧漢在《理解媒介》一書中提出了著名理論“媒介即是信息” ，在梅里爾眼中也有一條類似的理論， “數據缺失即是信息” 。在傳統模型中，數據缺失意味著盲區，意味著要用模擬數據去“填補” ，否則就無法建模。但在ZestFinance 的模型中，數據缺失本身就可以得出很多有用的結論。“數據缺失可能是真的缺失，也可能是故意缺失。 ”梅里爾生動地舉例解釋道，例如，假如在“月消費、壞賬、所用通信網絡”幾個選項中，如果全部數據缺失則是真的缺失；如果前兩項有數據，但通信網絡一欄為空白，說明是申請人故意隱匿信息，從而有欺詐的嫌疑。 “正常情況下，電信運營商應該可以查到一個人所用的通信網絡，如果查不到就有問題。 ”從模型數量而言，傳統徵信評分通常採用一個模型，而 ZestFinance 採用十個模型，從不同角度進行計算。“這十個模型從不同角度衡量申請人的分數，其中兩個是進行身份驗證防欺詐的，一個是預測提前還款概率的，其餘都是評判還款意願和能力的。最後我們還會用一個決策模型將十個模型的結果整合在一起，得到最終的結果。 ”梅里爾表示。在梅里爾看來，模型越多，準確率越高。梅里爾介紹他曾做過的實驗：有兩個模型，對利潤的提升分別是16.9%和9.4%，可能第二個模型往往會被棄用。但如果把這兩個模型放在一起使用，居然利潤提升了38.3%。 “如果市場競爭壓力不大，從節約成本的角度，用第一個模型足矣。但如果市場競爭激烈，兩個模型共用可以大大提高利潤。 ”這十個讓梅里爾引以為豪的模型也在不斷進行改進，每個模型平均半年就會誕生一個新版本，替代舊的版本。新版本通常會加入更多的變量和數據源。每個新版本模型都以開發者的名字命名，從而紀念付出勞動與智慧的工程師。尋找數據背後的關聯如今，大數據正成為熱門詞匯。關於大數據的定義，梅里爾也給出了自己的定義。 “不是數據多了就叫大數據，我認為大數據是指如何將碎片化的信息通過高科技整合應用。 ”梅里爾不斷強調，ZestFinance 最主要的工作就是尋找數據背後的關聯。在 ZestFinance 模型里，很重要的概念就是“信號” （Signal）。也就是由不同的變量互相碰撞產生的邏輯信息。ZestFinance 模型中大部分信號都是通過機器學習找到的。例如，一個人在網上填表喜歡用大寫還是小寫就是一個信號。ZestFinance 模型發現，填表喜歡全部用大寫字母的人違約率更高。此外，ZestFinance 通過機器學習發現，在月收入經過驗證的情況下（ZestFinance 有一些渠道可以大概獲知一個人的收入狀況），收入越高，違約率越低。然而，在月收入沒有經過驗證的情況下，自己填寫月收入7500美元的人違約率是最低的，填寫7500美元以上則數字越大違約率就更高。另一個例子，對於傳統金融機構而言，月收入可能是他們預測一個人還款的最重要因素。但梅里爾認為，其實收入高低並不說明問題，收入減去支出的淨收入加上地理因素，才能對還款產生預測能力。“有時候不同信號之間的互動可以產生非常有趣的結果，困難之處在於如何利用數學找到信號之間的關聯。 ”梅里爾表示。“不論收集數據還是提取信號，都是機器自動學習的過程，在三五秒內作出決定，沒有人工參與。 ”梅里爾說。盡管硅穀代表著創新，卻同時象徵著嚴謹。ZestFinance 亦如此。在基礎數據的搜集中，ZestFinance 並沒有將時尚的社交網絡視為數據寶藏，反而退避三舍，從未將社交網絡數據納入模型。“很多人將社交數據視為神器，但我不這麼看。我們主要還是採用結構化和類結構化的數據，例如交易信息、法律記錄、租賃信息等，來源主要是從數據代理商處購買。 ”梅里爾坦言，ZestFinance 的先進之處並非數據來源， “我們有的數據銀行都有” ，區別在於，銀行的人有數據卻不會用，就好比坐擁大量礦藏卻不會冶煉。相反，ZestFinance 最大的優勢就是“數據冶煉” ，同樣的數據到了梅里爾手中，就可以碰撞產生無數有價值的信號。從無賬戶人群到全民“我最初的靈感來自我的小姨子。 ”梅里爾向財新記者追憶道，當時他的小姨子要貸款換一副汽車輪胎，然而銀行因她沒有足夠信用記錄而拒絕。 “後來是我給她借了錢。如果我不借錢給她，她就只能去申請高利貸了。 ”“ZestFinance 的使命就是給這些無銀行賬戶或信用記錄不好的借款人創造透明公正的信用評分。 ”梅里爾表示。目前，ZestFinance 最主要的服務對象依然是無賬戶人群和信用記錄不好的人群。隨著 ZestFinance 名聲日漸顯赫，不斷有人問梅里爾， “ZestFinance 是否將成為 FICO 的挑戰者？”FICO 被譽為美國三大徵公司的“幕後大佬” ，三大徵信公司和主要金融機構採用的信用計算模型都來自FICO。對於此類問題，梅里爾的回答總是體現著他專注而謙遜的性格。“ZestFinance 和 FICO，就好比街邊的熱狗攤和麥當勞。 ”的確，當前 ZestFinance 與 FICO相比，不能同日而語。FICO 佔領著美國99% 的信用評分市場和絕大部分發達國家的信用評分市場，而 ZestFinance目前尚未走出美國，且主要服務于無賬戶和信用記錄不好的人群。ZestFinance 的模型天然就適用弱勢群體，因為這類人往往信用數據不足，在傳統的 FICO 模型中，他們會由於數據缺失而被拒之門外。但 ZestFinance的模型依靠“數據缺失即是信息”的理論，依然可給這類人群公正的信用評價。然而，ZestFinance 的確在蠶食著FICO 的疆土。根據惠譽評級公司的研究結果，FICO 分數的影響力正在下降。現在美國各個銀行都有自己的模型，他們會用自己的模型去跑徵信原始數據，FICO 評分只是其中一個參考變量。例如美聯銀行（Wachovia）對 FICO 評分的參考比重已經下降為零。與此同時，ZestFinance 在被越來越多的銀行採用，但梅里爾表示不便透露銀行名稱。據投行 Keefe，Bruyette & Woods的數據，截至2014年6月底，美國六家最大的商業銀行：富國銀行（Wells Fargo）、美國銀行（Bank of America）、摩根大通（JPMorgan Chase）、花旗（Citigroup）、美國合衆銀行（US Bancorp）、匹茲堡金融服務集團（PNC Financial Services）合計0.6% 壞賬率，較金融危機時期的3.3%大幅下降。業內人士質疑， “傳統金融機構的壞賬率已經很低，可改進空間很小。 ”對此，梅里爾表示，大數據模型可以有兩方面用途：可以在同樣通過率的情況下降低壞賬率，或在同樣壞賬率的情況下提高通過率。對於傳統機構而言，他們現在的壞賬率已經嚴格控在很低的程度，但通過使用 ZestFinance，可以使他們的通過率大大提高，這樣對金融機構而言意味著更多的收益。梅里爾的大數據模型並非採取傳統的線性回歸方法，而是採取比較複雜的新方法。所謂新方法，也正是ZestFinance 的核心競爭力，也是梅里爾從 Google掌握的主要技術精髓。梅里爾認為，他從 Google 學到的最主要的並非技術，而是企業文化。 “很多人朝著同一個目標去思考，但思考的角度又各不相同，這就是Google精神。 ”在梅里爾看來，團隊是創業成功的核心。他對大數據人才也有著自己的理解和定義。“大數據人才可以來自很多學科，例如數學、心理學、物理學等。但學科背景不是關鍵，對數據的好奇和渴求在我看來才是最重要的。大數據人才都應該滿懷熱忱，希望用數據分析去解決問題和謎團。 ”梅里爾說。未必需要“獨立第三方” 梅里爾此次來華是為了參加清華大學五道口金融學院的學術會議，盡管在中國尚無業務，梅里爾表示“常來中國” 。每次來華，梅里爾都會和監管層、學者、金融機構的人士見面，對中國的徵信行業十分瞭解。在採訪中，梅里爾也分享了他對中國徵信行業發展的看法。按照2013年3月國務院下發《徵信業管理條例》和2013年12月央行出台的《徵信機構管理辦法》，中國將允許開設市場化個人徵信機構。財新記者獨家獲悉，全國將有不到十家企業第一批獲得該牌照，候選企業包括阿里巴巴旗下的芝麻信用、平安集團旗下的前海徵信、另外還有騰訊、中誠信、中智信、拉卡拉、深圳鵬元等。一旦個人徵信牌照下發，獲得牌照的企業將成為央行徵信中心的有力補充，市場也將百花齊放。目前候選企業都結合主營業務制定了徵信業務的“特色化道路” ，例如阿里側重線上數據挖掘，平安側重保險行業，中誠信側重地方誠信體系建設等。令人堪憂的一點是，和美國的三大徵信局不同，中國的這批候選企業大多是“數據製造者” 。據央行徵信局人士表示，徵信機構應當遵循“兩個第三方” ，即數據來源於第三方，使用于第三方。這成了很多候選企業難以逾越的門檻，也成為監管層遲遲不肯下發牌照的隱憂之一。對此，梅里爾也發表了自己的觀點。他認為， “第三方”不應該成為限制徵信業市場化的桎梏，應該允許非第三方機構基於自己手中的數據對一個人做信用打分。“徵信數據原本就是一個個孤島，美國徵信業1980年至2000年期間的發展，就是從數據的孤島逐漸匯聚整合為數據池。這是一個很自然的演變過程。中國監管層只是站在了一個很有前瞻性的高度，提早對數據的客觀性做出了要求。 ”梅里爾指出。梅里爾指出，西方世界早期的徵信就是很主觀的，靠人際關係完成。1950年以前，美國評判個人信用的標準完全取決于一個人和徵信官員的關係親疏，極為主觀。直到1950年以後，數學評分才逐漸替代了主觀判斷。“由於中國市場的快速發展，中國逾越了那段主觀判斷的歷史時期，直接從數學評分開始。 ”梅里爾表示。目前，P2P 網絡借貸在中國大行其道。據不完全統計，迄今為止中國約有1200家大大小小的 P2P 網貸公司。然而，隨著行業的蓬勃發展，越來越多的問題浮出水面。數據顯示，截至2014年7月，全國總共有156家網貸平台倒閉或“跑路” ，占到網貸平台總量（1200家）的13%。梅里爾對 P2P 也發表了自己的看法， “在美國有個說法：每個傻子都能借錢，困難的是把錢要回來。這不只是P2P，在任何金融機構都適用。 ”梅里爾說，很多人有很多資本，或者有很好的渠道，但不懂風控。在中國，讓信貸能服務于更廣泛的人群，P2P 的作用不容抹殺。然而，在這個遊戲中，每家 P2P公司是騾子是馬，要靠市場來檢驗。

PermaLink: https://articles.zkiz.com/?id=121369

📖 ZKIZ Archives

Random Tags

大數據做徵信