互聯網公司投資邏輯和估值方法 作者:如山五行舫 一、什麽樣的互聯網公司是好公司? 1.公司大幅領先,所在領域具有馬太效應,“老二非死不可” 形成馬太效應的原因各不相同,但最終的結果就是勝出的公司獲得壟斷紅利。例如即時通訊領域的QQ,微博里的新浪微博等。究其原因,社交用戶的核心需求就是交流,因此互相影響巨大,最終某一群體的用戶,只會聚集到某個特定平臺。即使是掛掉的MSN,以前也可以認為在外企白領里具有馬太效應。 在遊戲領域,競技類遊戲也會有馬太效應,如英雄聯盟,穿越火線等,基本都是壟斷了所在的細分市場。但其他端遊和頁遊的馬太效應就不太明顯,如天龍八部,征途,傳奇等可以同時存在多年。具體原因,大致是因為RPG遊戲玩家的需求多樣化,需要不同類型的遊戲滿足。而細分市場的競技類遊戲,用戶需求明確,精確,而且玩家間的互相影響也更大(如打槍遊戲,所有小夥伴們都玩CF)。 在電商領域,淘寶的C2C也呈現馬太效應,平臺規模越大,商家和用戶越多,反過來又促進平臺變大。但在京東,蘇寧易購,易迅等參與的百貨類B2C領域,馬太效應較弱。原因是這幾大B2C目前差異較小,多數是標準化商品,用戶基本是哪里便宜去哪里,因此幾大B2C都在努力的發展商戶開放平臺來突圍。 需要關註的是,在折扣特賣的細分領域,唯品會是不是擁有馬太光環?這個還需要進一步觀察。視頻行業的馬太效應則比較弱,仍處在廝殺階段:拼外部內容的話,要麽是看誰獨家買斷燒錢多,要麽就沒有差異化,去誰家看都一樣。拼自制內容的話,馬太效應更沒有了,用戶口味的多樣性,決定了每家都能抓住一部分用戶,有人喜歡去樂視看美劇,但有人更喜歡去優酷看RunningMan。 馬太效應的一個重要基礎是形成能夠自發增強的閉環。社交領域是特定用戶間的閉環,朋友都用QQ,所以我也用QQ,同事都在用微信,所以我用微信。淘寶網則是用戶和商家的閉環,用戶多則商家多,商家多則商品多&商品便宜,進而吸引更多用戶。 2.用戶粘性強 這個比較容易理解,最典型的就是微信。在功能上,易信,來往和微信都能滿足需求,但我不會離開微信去用易信,因為我的朋友都在這里,社交關系鏈在這里,這個就是用戶粘性。類似的社交粘性公司還有:新浪微博,YY,豆瓣,知乎等各種社區化產品。 遊戲開發中,通過社交機制加強用戶粘性也是最重要的環節,因為玩家長期留在遊戲里並付費,更多的是因為他在遊戲里遇到的人,以及與這些人之間的愛恨情仇。 沒有社交關系的公司怎麽辦?用戶體驗和用戶習慣也可以建立粘性。比如搜索用百度,一是長久養成的習慣,二是搜索結果還算滿意。購物上淘寶,是因為它東西多,價格便宜,還有支付寶保障,他是C2C網站里體驗最好的。如果沒有特別大的差異化優勢,用戶習慣一旦確定就很難改變。比如各個視頻網站,都培養了自己的習慣用戶,即使看《中國好聲音》不得不去搜狐,但看完之後,還是繼續用優酷,因為習慣。 由習慣帶來的粘性,雖然在同質競爭里問題不大,但容易被新的模式和差異化競爭取代。例如多年前的新聞門戶,新浪和搜狐都有一批忠實用戶,後來QQ開始彈窗…再後來,出現了微博,微信,自媒體..... 3.用戶使用頻率高,使用時間長 這里的傑出代表還是微信,大家可以統計下自己每天打開微信的次數,使用微信看各種資訊的時間。一個產品,用戶用的多,用的時間長,賺錢的事情自然可以慢慢挖掘。 另外一個例子是PC上的360,安全產品其實是一個使用頻率很低的產品,收入空間也非常有限。奇虎在完成安全產品布局後,借勢推廣了360瀏覽器,導航站,遊戲,搜索等高頻率的產品,營收才開始爆發。 使用頻率低的產品能不能成功?可以,在單次使用期間,蘊含了比較大的商業價值。比如搜房網,汽車之家,易車網,每一個來的用戶,都有潛在的購房和購車意願,所以在收入上也能找到大空間。另外以年度周期來看,搜房和易車的用戶訪問頻率不高,但在用戶買車和買房的時間區間里,訪問頻率也是比較高的。 4.具有用戶平臺,業務穩定性強 2007年以前,遊戲行業的領頭羊還是盛大,網易,九城等公司。到了2013年,騰訊在遊戲領域已經是一騎絕塵,360也是後來居上,而昔日幾家公司的業務則大多處於停滯和衰落狀態。很重要的一個原因,就是騰訊和360具有平臺優勢,只要用戶在,就可以源源不斷的推送新產品。而單純的遊戲研發和代理公司,穩定性就會差很多,一款產品不成功,用戶就會流失到其他公司。 類似的案例還有國外的Zynga,作為盛極一時的facebook遊戲開發商,在連續幾款遊戲失敗之後,衰落的速度令人震驚。 用戶平臺是怎樣形成的?這個問題很大,可以從馬太效應,用戶粘性,使用頻率,業務協同性等多個角度來分析,以後有機會再單獨討論。 目前可見的幾個平臺:QQ,微信,360系列,京東、淘寶和天貓,唯品會,YY,新浪微博(勉強算半個),人人網(衰落中)。 5.好的生意模式 互聯網公司大致有兩種商業模式:一是賺用戶的錢,讓用戶為更好的體驗付費,比如騰訊的遊戲和各種鉆,YY里的鮮花和汽車。二是賺企業的錢,比如百度和阿里。 兩種方式的基礎,都是以大量用戶為基礎的,這也是互聯網的偉大之處,一切以用戶為核心。 不同業務的公司,有不同的命。遊戲公司的利潤率輕松達到40%以上,而B2C電商和視頻網站還在為盈利苦苦掙紮..... 所以,什麽是好生意? 可以從以下幾個角度來分析: 用戶的獲取和維護成本:互聯網是以用戶為中心的,獲得用戶是賺錢的基礎。易車的營收略高於汽車之家,但凈利潤只有其50%左右,主要原因是其需要從百度導入用戶,營銷支出較大。B2C電商們的一大支出也是流量費用,而騰訊和YY這些用戶平臺,獲取和維護新用戶的成本就會低很多。 潛在的付費用戶數量:百度和QQ都是典型的長尾付費,付費用戶數量巨大。 對用戶和企業的付費吸引力:QQ用戶願意為黃鉆付費,但新浪微博用戶很少為會員掏錢。 付費深度:房產和汽車企業明顯比淘寶小二有付費深度。 付費的穩定性和可持續性:例如大環境不好的時候,向企業收費的公司受影響會比較大。 收入增長和成本的關系:好公司的一個特征是,增長和成本的線性關系很弱,用戶和業務爆發式增長,但成本增長很慢,由此帶來利潤率的提升。這一點也是互聯網公司和傳統制造業比較大的區別。 6.好的公司文化和管理層 這個是投資所有公司都需要考慮的。正面典型,騰訊可以算一個,創始團隊穩定互補,管理層專心業務,公司文化受到員工認同,管理規範等等。負面的…可以看下橋哥的盛大,朱哥的九城,和曹會計的新浪。 二、互聯網公司如何估值? 很多投資者覺得互聯網公司估值很高,一直猶豫投還是不投,錯過了很多好的投資機會。但有很大一部分投資者其實不是用正確的方法去估值,互聯網公司和傳統行業的估值有很大的區別。 互聯網公司不看PB、PE,輕資產沒法看PB,現金流是未來的,更沒法看PE,定性分析方面互聯網公司也沒有成熟的商業模式,那怎麽估值呢?化繁為簡,就看五條: 第一,看用戶流量 燒錢是為了賺錢。互聯網公司初期沒有利潤,只能看未來利潤的源頭,即用戶流量(UV),特別是活躍用戶數(Active Uers)的變化。奇虎360為什麽估值高,高就高在他的用戶數量太龐大了!用戶數量才是互聯網公司的真實資產,這個模式其實很好理解,非常像中國平安的壽險業務,保單表面上看是費用,實際上是未來的利潤,中國平安賣出的保單越多,賬面虧損越大,但內涵價值越高,就是這個道理。其實傳統行業和互聯網行業能融會貫通的。總之,互聯網公司的用戶流相當於傳統行業的現金流;傳統行業看凈利潤的增長率,互聯網公司看用戶數量的增長率;傳統行業看PE、PB,互聯網公司看市值和用戶流量之比(P/U)。這個估值模型分析騰訊、奇虎、YY,是目前市場通行的方法。 第二,看貨幣化能力 免費的才是最貴的,有了用戶流才有現金流,有了U才能分析ARPU(每用戶平均收入)。能讓用戶甘心情願從口袋掏錢,互聯網最賺錢的業務就是 3G:Game、Gamble、Girl。因此,把用戶轉到這些能賺錢且有黏性的業務才是出路,騰訊的Game、500彩票的Gamble、YY的 Girl,看好的邏輯就在於此。當然,用戶流能否未來轉化為現金流,是互聯網公司的風險一躍,不成功則成仁,要麽上天堂,要麽下地獄。騰訊帝國的崛起,就是通過免費的QQ、微信吸引到海量用戶,再通過網遊、增值服務、渠道分成、廣告把用戶流源源不斷的轉化為現金流。反面的例子就是新浪,新浪微博也擁有海量用戶數,但始終沒有辦法把用戶流量貨幣化,在微博最火的時候投資新浪,註定了腰斬的悲劇。 第三,看用戶體驗 互聯網行業用戶就是上帝,能吸引用戶、留住用戶,唯一能靠的就是偉大的產品。騰訊、奇虎、淘寶的興起,不是依賴政府保護和推廣,而是依賴產品極致的用戶體驗,方能殺出一條血路。同理,央企也搞過人民搜索,結果一塌糊塗,互聯網行業千萬不要投國企或者有官方背景的企業,互聯網是屌絲的天下,官僚永遠搞不好互聯網,因為根本沒有為屌絲服務的互聯網基因。 第四,看企業家精神 互聯網行業沒有任何門檻,VC的錢比好主意多,幾個大學生在地下室就能創業,只要註意好就不愁融到資,因此互聯網的競爭極為殘酷,全行業野蠻成長,能僥幸勝出,全靠領導人和團隊的狼性!狼性!狼性!不玩命,就滅亡! 第五,看行業龍頭 “老二非死不可”嘛!任何互聯網的細分市場,要投就投No.1,老二便宜的話可以投,老三老四基本就是垃圾,不投蘇寧雲商就是這個道理(不是蘇寧不好,而是它做不到No1No2),所以,真想投互聯網公司就去美股中概股吧,創業板別說是老二,老三老四都排不上,還被市場炒得群魔亂舞。 投資互聯網公司難在哪兒呢?第一條和第五條有客觀的數據可供分析,但這兩條只是結果而不是原因,而最重要的中間三條(用戶體驗、企業家精神、貨幣化能力)是純粹主觀的,這也許就是投資互聯網公司的難度所在吧! |
不讓你下載 不相關的電影! 人多,占用資源大。 費用問題,快了對你們來說也沒什麽用
@李科同學 :公司的網速一點都不像互聯網上市大公司的做派啊……i黑馬:“紅衣教主”的大作已經上市兩個月有余,市場反應這本書內容很好,但是整體結構散亂,重複的地方也有很多。今天黑馬哥看到一篇很不錯的書評,是一位90後自媒體人江流兒寫的,三句話講明白了周掌門的方法論。
周鴻祎,中國互聯網安全之父,奇虎360公司董事長,互聯網新格局的締造者,顛覆式創新家、知名天使投資人。在他新書《周鴻祎自述:我的互聯網方法論》中,周鴻祎首次講述了自己的互聯網觀、產品觀和管理思想等內容,江流兒的讀書筆記選取了本書的重點,概括如下三方面:
1、免費是一種快速獲得用戶的方式,也是未來趨勢。
2、一切為了用戶,產品(體驗)是最重要的
3、做一款產品的思想為:顛覆式創新+精益創業+微創新
1、免費
1.1、從企業經營的角度來講,互聯網的盈利有三種:
a、利用互聯網賣東西;
b、廣告收入;
c、增值服務。
建立免費的商業模式海量的用戶基數非常重要。
1.2、免費是一種快速獲得用戶的方式。實現方式如下:
對於軟件:成本固定,用戶越多,攤到用戶的成本越低。
對於硬件:這里的免費目前理解為成本價銷售;更進一步的理解是0價銷售。亞馬遜做過統計,沒有Kindle的用戶每年購書平均300元利潤,購買kindle的用戶每年購買電子書平均1000元利潤,所以亞馬遜可以從購買kindle用戶那里賺到更多700元,而kindle成本只有500元。所以,亞馬遜免費送kindle可以賺到更多的錢。
1.3、同時,要延長自己的價值鏈,遷移利潤的來源。比如獲得廣告收入或者增值服務的收入。舉個例子:360做安全衛士後做安全瀏覽器,在瀏覽器上做廣告盈利;QQ免費,但是QQ秀,紅鉆,會員等盈利;
一定要記住:盈利的是客戶,但是要先服務好用戶。
2、產品最重要
一切都是為了獲得用戶,所以用戶是最重要的。但是如果沒有好的產品,怎麽可能獲得海量的用戶呢?!
一款好的產品一定要考慮清楚用戶為什麽非要用這款產品,它幫助用戶解決什麽問題,與對手有什麽不同。
好的體驗一定要從小白的角度去考慮,一定要讓用戶感知到,讓用戶尖叫。
3、打造一款好產品:要麽簡單,要麽便宜;一針捅破天
3.1、顛覆式創新
首先,顛覆式創新很難,周鴻祎解釋強調顛覆式創新“不是靈丹妙藥,但是能讓你知道,當你做的最好的時候,可能正是被一種看不見的力量顛覆的時候”,所以,不要忽略微小的力量。
對於小公司,一定不能學大公司,而是去做大公司不願意做的邊緣市場,這個過程大概5-10年,沒有人甚至顛覆者本人都很難意識到是否做的是顛覆式創新。
一定要放低姿態,以免被大公司發現進行碾壓。
找到大公司的關節,向其施壓,敵人越反抗,越痛苦。比如360免費,相當於重開戰場,當年瑞星,金山,卡巴斯基等靠賣軟件盈利,如果這些公司跟進免費,則相當於自殘。
小公司資源有限,尤其要單點切入,做到極致。
3.2、精益創業+微創新
微創新意思為在產品體驗中不斷的改善,關註細節;精益創業也強調小步快跑,通過市場的A/B法則來檢測假設的合理性。
我們都有一種心理,不鳴則已,一名驚人,想著十年磨出一個好產品,一出生就風華正茂。但是,這是工業時代的思維。互聯網的思路是一開始拿出一個初步的版本,根據自己認知的提升和用戶的反饋來不斷的改善產品。矽谷有一句話,如果你發布的產品很不錯,說明你發布的晚了。
商業模式包含:用戶模式、產品模式、推廣模式、盈利模式。
備註:書中推薦了以下幾本書:《創新者的窘境》、《創新者的解答》、《精益創業》、《柔道戰略》前兩本講顛覆式創新,後兩本講精益創業。感興趣的可以讀一下。
精彩語錄:
1、離用戶越近越有價值,否則粉絲經濟就是虛的。
2、前段時間手機廠商爭市場份額,都拿對自己有利的數據,周鴻祎認為搞笑,銷量份額不重要,用戶更重要,互聯網公司與傳統公司價值觀不一樣,雞同鴉講。
3、傳統的想法認為能賣就行,有用就好,互聯網要求超越功能與價值,做成娛樂業。
4、推薦書:《商業秀-所有行業都是服務業》。
5、互聯網與非互聯網區別:目標不一樣,體驗VS功能。
6、投資方面傳統思維與互聯網思維的PK:你掙錢嗎VS多少用戶,有用戶就有模式。
7、錯位免費,不一定核心業務免費。如農業產品廠商,做個免費養豬解答社區。
8、喬布斯微創新:iPhone最初只是喬布斯認為一手拿手機,一手拿iPod麻煩,將兩者合一。根本不是有人說iPhone的成功是喬布斯高瞻遠矚建APP store,那是3GS之後的事。
9、體驗、用戶至上這些東西很重要,傳統行業讓我們忘記了這些重要,我們太迷信廣告,營銷。
10、與用戶連接頻度要高。
11、互聯網進化:
(1)互聯網改變連接結構,如搜索,信息。
(2)去中介化 小豬短租+uber+人人送餐。
(3)IOT 萬物聯網,如安全手環變為安全兒童衣服。
12、要做爆品VS全做,想全做有個錯誤的內在假設:資源足夠。不可能每天都針對一個產品搞發布會。
13、中國創業者老提宏觀的商業模式VS應該學習美國關註微觀產品解決一個問題。
(本欄目歡迎出版社、自媒體人聯系,聯系微信:zzyyanan)
成都老中醫應戰“號脈驗孕”首輪猜錯】自網絡紅人@燒傷超人阿寶 向中醫發起挑戰後,成都老中醫呂即來主動接受挑戰,並豪擲20萬擺擂希望在癌癥、腫瘤等多方面進行對決。呂即來對5名女士進行了診脈驗孕(其中一名是懷孕者),可直到第二輪他才猜出哪個懷了孕。即便如此,他還是表態說要繼續挑戰。
中醫號脈判斷是否懷孕50%的可能性正確,和賭場押大小概率相同。
阿寶要分辨的到底是技能還是運氣,科學還是偽科學,
用80%去證實不靠譜,中醫達到70%難道就不是技能?70%就是靠運氣?
誰定的80%標準?為什麽80%?這些都是打嘴仗的好素材,
撲克里21點56%的勝率就是技能,完全是靠算牌算出來的優勢。
阿寶不如用Bayes方法證明中醫50%的可能性,
這樣更有說服力。
概率論只不過是把常識用數學公式表達了出來。
——拉普拉斯
記得讀本科的時候,最喜歡到城里的計算機書店里面去閑逛,一逛就是好幾個小時;有一次,在書店看到一本書,名叫貝葉斯方法。當時數學系的課程還沒有學到概率統計。我心想,一個方法能夠專門寫出一本書來,肯定很牛逼。後來,我發現當初的那個樸素歸納推理成立了——這果然是個牛逼的方法。
——題記
目錄
0. 前言
1. 歷史
2. 拼寫糾正
3. 模型比較與貝葉斯奧卡姆剃刀
4. 無處不在的貝葉斯
5. 樸素貝葉斯方法(又名“愚蠢者的貝葉斯(idiot’s bayes)”)
6. 層級貝葉斯模型
7. 貝葉斯網絡
0.
這是一篇關於貝葉斯方法的科普文,我會盡量少用公式,多用平白的語言敘述,多舉實際例子。更嚴格的公式和計算我會在相應的地方註明參考資料。貝葉斯方法被證明是非常 general 且強大的推理框架,文中你會看到很多有趣的應用。
1.
托馬斯·貝葉斯(Thomas Bayes)同學的詳細生平在這里。以下摘一段 wikipedia 上的簡介:
所謂的貝葉斯方法源於他生前為解決一個“逆概”問題寫的一篇文章,而這篇文章是在他死後才由他的一位朋友發表出來的。在貝葉斯寫這篇文章之前,人們已經能夠計算“正向概率”,如“假設袋子里面有N個白球,M個黑球,你伸手進去摸一把,摸出黑球的概率是多大”。而一個自然而然的問題是反過來:“如果我們事先並不知道袋子里面黑白球的比例,而是閉著眼睛摸出一個(或好幾個)球,觀察這些取出來的球的顏色之後,那麽我們可以就此對袋子里面的黑白球的比例作出什麽樣的推測”。這個問題,就是所謂的逆概問題。
實際上,貝葉斯當時的論文只是對這個問題的一個直接的求解嘗試,並不清楚他當時是不是已經意識到這里面包含著的深刻的思想。然而後來,貝葉斯方法席卷了概率論,並將應用延伸到各個問題領域,所有需要作出概率預測的地方都可以見到貝葉斯方法的影子,特別地,貝葉斯是機器學習的核心方法之一。這背後的深刻原因在於,現實世界本身就是不確定的,人類的觀察能力是有局限性的(否則有很大一部分科學就沒有必要做了——設想我們能夠直接觀察到電子的運行,還需要對原子模型爭吵不休嗎?),我們日常所觀察到的只是事物表面上的結果,沿用剛才那個袋子里面取球的比方,我們往往只能知道從里面取出來的球是什麽顏色,而並不能直接看到袋子里面實際的情況。這個時候,我們就需要提供一個猜測(hypothesis,更為嚴格的說法是“假設”,這里用“猜測”更通俗易懂一點),所謂猜測,當然就是不確定的(很可能有好多種乃至無數種猜測都能滿足目前的觀測),但也絕對不是兩眼一抹黑瞎蒙——具體地說,我們需要做兩件事情:1. 算出各種不同猜測的可能性大小。2. 算出最靠譜的猜測是什麽。第一個就是計算特定猜測的後驗概率,對於連續的猜測空間則是計算猜測的概率密度函數。第二個則是所謂的模型比較,模型比較如果不考慮先驗概率的話就是最大似然方法。
1.1
下面舉一個自然語言的不確定性的例子。當你看到這句話:
The girl saw the boy with a telescope.
你對這句話的含義有什麽猜測?平常人肯定會說:那個女孩拿望遠鏡看見了那個男孩(即你對這個句子背後的實際語法結構的猜測是:The girl saw-with-a-telescope the boy )。然而,仔細一想,你會發現這個句子完全可以解釋成:那個女孩看見了那個拿著望遠鏡的男孩(即:The girl saw the-boy-with-a-telescope )。那為什麽平常生活中我們每個人都能夠迅速地對這種二義性進行消解呢?這背後到底隱藏著什麽樣的思維法則?我們留到後面解釋。
1.2
貝葉斯公式是怎麽來的?
我們還是使用 wikipedia 上的一個例子:
一所學校里面有 60% 的男生,40% 的女生。男生總是穿長褲,女生則一半穿長褲一半穿裙子。有了這些信息之後我們可以容易地計算“隨機選取一個學生,他(她)穿長褲的概率和穿裙子的概率是多大”,這個就是前面說的“正向概率”的計算。然而,假設你走在校園中,迎面走來一個穿長褲的學生(很不幸的是你高度近似,你只看得見他(她)穿的是否長褲,而無法確定他(她)的性別),你能夠推斷出他(她)是男生的概率是多大嗎?
一些認知科學的研究表明(《決策與判斷》以及《Rationality for Mortals》第12章:小孩也可以解決貝葉斯問題),我們對形式化的貝葉斯問題不擅長,但對於以頻率形式呈現的等價問題卻很擅長。在這里,我們不妨把問題重新敘述成:你在校園里面隨機遊走,遇到了 N 個穿長褲的人(仍然假設你無法直接觀察到他們的性別),問這 N 個人里面有多少個女生多少個男生。
你說,這還不簡單:算出學校里面有多少穿長褲的,然後在這些人里面再算出有多少女生,不就行了?
我們來算一算:假設學校里面人的總數是 U 個。60% 的男生都穿長褲,於是我們得到了 U * P(Boy) * P(Pants|Boy) 個穿長褲的(男生)(其中 P(Boy) 是男生的概率 = 60%,這里可以簡單的理解為男生的比例;P(Pants|Boy) 是條件概率,即在 Boy 這個條件下穿長褲的概率是多大,這里是 100% ,因為所有男生都穿長褲)。40% 的女生里面又有一半(50%)是穿長褲的,於是我們又得到了 U * P(Girl) * P(Pants|Girl) 個穿長褲的(女生)。加起來一共是 U * P(Boy) * P(Pants|Boy) + U * P(Girl) * P(Pants|Girl) 個穿長褲的,其中有 U * P(Girl) * P(Pants|Girl) 個女生。兩者一比就是你要求的答案。
下面我們把這個答案形式化一下:我們要求的是 P(Girl|Pants) (穿長褲的人里面有多少女生),我們計算的結果是 U * P(Girl) * P(Pants|Girl) / [U * P(Boy) * P(Pants|Boy) + U * P(Girl) * P(Pants|Girl)] 。容易發現這里校園內人的總數是無關的,可以消去。於是得到
P(Girl|Pants) = P(Girl) * P(Pants|Girl) / [P(Boy) * P(Pants|Boy) + P(Girl) * P(Pants|Girl)]
註意,如果把上式收縮起來,分母其實就是 P(Pants) ,分子其實就是 P(Pants, Girl) 。而這個比例很自然地就讀作:在穿長褲的人( P(Pants) )里面有多少(穿長褲)的女孩( P(Pants, Girl) )。
上式中的 Pants 和 Boy/Girl 可以指代一切東西,所以其一般形式就是:
P(B|A) = P(A|B) * P(B) / [P(A|B) * P(B) + P(A|~B) * P(~B) ]
收縮起來就是:
P(B|A) = P(AB) / P(A)
其實這個就等於:
P(B|A) * P(A) = P(AB)
難怪拉普拉斯說概率論只是把常識用數學公式表達了出來。
然而,後面我們會逐漸發現,看似這麽平凡的貝葉斯公式,背後卻隱含著非常深刻的原理。
2.
經典著作《人工智能:現代方法》的作者之一 Peter Norvig 曾經寫過一篇介紹如何寫一個拼寫檢查/糾正器的文章(原文在這里,徐宥的翻譯版在這里,這篇文章很深入淺出,強烈建議讀一讀),里面用到的就是貝葉斯方法,這里我們不打算複述他寫的文章,而是簡要地將其核心思想介紹一下。
首先,我們需要詢問的是:“問題是什麽?”
問題是我們看到用戶輸入了一個不在字典中的單詞,我們需要去猜測:“這個家夥到底真正想輸入的單詞是什麽呢?”用剛才我們形式化的語言來敘述就是,我們需要求:
P(我們猜測他想輸入的單詞 | 他實際輸入的單詞)
這個概率。並找出那個使得這個概率最大的猜測單詞。顯然,我們的猜測未必是唯一的,就像前面舉的那個自然語言的歧義性的例子一樣;這里,比如用戶輸入: thew ,那麽他到底是想輸入 the ,還是想輸入 thaw ?到底哪個猜測可能性更大呢?幸運的是我們可以用貝葉斯公式來直接出它們各自的概率,我們不妨將我們的多個猜測記為 h1 h2 .. ( h 代表 hypothesis),它們都屬於一個有限且離散的猜測空間 H (單詞總共就那麽多而已),將用戶實際輸入的單詞記為 D ( D 代表 Data ,即觀測數據),於是
P(我們的猜測1 | 他實際輸入的單詞)
可以抽象地記為:
P(h1 | D)
類似地,對於我們的猜測2,則是 P(h2 | D)。不妨統一記為:
P(h | D)
運用一次貝葉斯公式,我們得到:
P(h | D) = P(h) * P(D | h) / P(D)
對於不同的具體猜測 h1 h2 h3 .. ,P(D) 都是一樣的,所以在比較 P(h1 | D) 和 P(h2 | D) 的時候我們可以忽略這個常數。即我們只需要知道:
P(h | D) ∝ P(h) * P(D | h) (註:那個符號的意思是“正比例於”,不是無窮大,註意符號右端是有一個小缺口的。)
這個式子的抽象含義是:對於給定觀測數據,一個猜測是好是壞,取決於“這個猜測本身獨立的可能性大小(先驗概率,Prior )”和“這個猜測生成我們觀測到的數據的可能性大小”(似然,Likelihood )的乘積。具體到我們的那個 thew 例子上,含義就是,用戶實際是想輸入 the 的可能性大小取決於 the 本身在詞匯表中被使用的可能性(頻繁程度)大小(先驗概率)和 想打 the 卻打成 thew 的可能性大小(似然)的乘積。
下面的事情就很簡單了,對於我們猜測為可能的每個單詞計算一下 P(h) * P(D | h) 這個值,然後取最大的,得到的就是最靠譜的猜測。
一點註記:Norvig 的拼寫糾正器里面只提取了編輯距離為 2 以內的所有已知單詞。這是為了避免去遍歷字典中每個單詞計算它們的 P(h) * P(D | h) ,但這種做法為了節省時間帶來了一些誤差。但話說回來難道我們人類真的回去遍歷每個可能的單詞來計算他們的後驗概率嗎?不可能。實際上,根據認知神經科學的觀點,我們首先根據錯誤的單詞做一個 bottom-up 的關聯提取,提取出有可能是實際單詞的那些候選單詞,這個提取過程就是所謂的基於內容的提取,可以根據錯誤單詞的一些模式片段提取出有限的一組候選,非常快地縮小的搜索空間(比如我輸入 explaination ,單詞里面就有充分的信息使得我們的大腦在常數時間內把可能性 narrow down 到 explanation 這個單詞上,至於具體是根據哪些線索——如音節——來提取,又是如何在生物神經網絡中實現這個提取機制的,目前還是一個沒有弄清的領域)。然後,我們對這有限的幾個猜測做一個 top-down 的預測,看看到底哪個對於觀測數據(即錯誤單詞)的預測效力最好,而如何衡量預測效率則就是用貝葉斯公式里面的那個 P(h) * P(D | h) 了——雖然我們很可能使用了一些啟發法來簡化計算。後面我們還會提到這樣的 bottom-up 的關聯提取。