📖 ZKIZ Archives


SENSE隨筆131101統計學簡史 掌門天地

http://www.tangsbookclub.com/2013/11/01/sense%E9%9A%A8%E7%AD%86131101%E7%B5%B1%E8%A8%88%E5%AD%B8%E7%B0%A1%E5%8F%B2/

SENSE隨筆131101

統計學簡史

高人輝執筆

 

「統計學」就是從量化的角度去研究問題。

現代中小學校課程一般都會教授統計學知識,大家都認識圖表、平均數、常態分佈等術語。但「統計學」概念不像自然科學,在現實生活中並無對應實體,故此比較難於掌握。本人相信透過學習相關歷史,可以有助了解更多,希望藉這篇隨筆加以介紹。

早期統計學與公共行政管理密不可分,政府作為行政機關,必會用到統計方法,以處理社會生活面的不同數據,讓官員製定相關政策,故實務的統計方法早已有之。現代統計學更被廣泛應用在自然科學及社會科學中,一般可細分為 “應用統計學”及 “數理統計學”兩大類型。

應用統計學研究如何收集、整理、歸納及分析數據,建立數學模型,以描述客觀實體的全貌。***

數理統計學則專注背後的數理邏輯。

 

〈概率論〉統計學的數理基礎理論

現代意義的統計學發展,應從17及18世紀數學家說起,法國當時出現了不少偉大數學家,例如 BERNOULLI、費馬FERMAT、MOIVRE、巴斯卡PASCAL等。這群數學家除了對純粹數學有研究,亦向其他領域出發,例如物理學,哲學,以至神學,可算得上是多才多藝的思想家。

數學以外的問題,不易分解出簡單清晰的原理來描述。當中比較成功的,應該是日常生活中的遊戲,例如擲硬幣,轉輪盤之類,因為這些遊戲有清晰的規則,易於用數學描述及研究。數學家於是建立數學理論,去處理這些不斷重複而有明確機率的遊戲。

伯努力BERNOULLI 化煩為簡,分離出一個更基礎的理論,名叫 「大數法則 LAWS OF LARGE NUMBERS」,但機率的概念仍不易了解。

 

直到19世紀,英國邏輯學家 范恩JOHN VENN 提出了「機率」的表達方法,使得機率在現實生活上有它的意義,他把一個重要的大數法則定理加以解釋,指若某件事有既定的機率 (就像擲一枚骰子,得到六點的事件機率就是六份之一),只要我們不斷重複進行測試,該事件發生次數的比例就會越來越接近這個值。***

這些學問構成了統計學的基礎—概率論,但當其時沒有長足的發展。這可能是由於另一股主流思想—決定論的影響所致。

 

〈決定論的興衰〉

物理學宗師 牛頓NEWTON(1642-1727)提出其經典力學定律後,在實證層面上獲得空前成功,理論中的基礎數學模型,遂廣泛地應用在其他的科學範疇。 當時學術界漸漸形成了一種科學哲學習風,認為只要找到事物背後的運作定律,就可以解釋過去及預知將來。 牛頓後的一個世紀,這種科學哲學觀成為主流,宇宙就像機械鐘表運動,只要找到正確的方程式,一切運動盡在掌握之中。 雖然19世紀 “浪漫主義運動”曾經嘗試抗拒這種冷漠的機械論,唯海王星的成功預測及發現,力證機械論的偉大及無敵。 這種思想已經深深植根於當時的文化之中,雖然沒有完全排除概率論,但「決定論」在意識形態上總像跟「概率論」格格不入。

法國數學家 拉普拉斯LAPLACE( 1749-1827)寫了一本書,用數學方程式去描述宇宙中的天體運動,他相信只要有正確的初始條件,就可以正確預測天體的位置,如果觀測出來的數據跟預測出來的不一樣,那就是觀測有誤差。*** 只要隨著觀測儀器不斷進步,觀測誤差應會越來越小,最終觀察到的數據,必然會跟方程式預測出來的一樣。

可惜事與願違,雖然儀器越來越準確,觀測得到的數據,並沒有越來越接近預測值,反而數據突顯出一種隨機性,令到如同金科玉律般的決定論被人質疑。

決定論正處於窮途末路,正因為主流的科學基石給質疑了,於是一群有創新精神的科學家開拓了新的範式去處理帶有隨機性的科學問題。

正如芝加哥大學的 孔恩Kuhn所說,現實世界是極為複雜的,永遠不可能以一個有組織的科學模型來完全描述。 隨著數據越來越多,科學模型的修正項亦越來越多,到最後出現一些特例,會發現原來的模型已不合適。 到了這時候,有原創想法的人就會提出完全不同的新模型,掀起一場 “科學革命” 。***

 

〈皮爾生〉數理統計學的始祖

接下來介紹統計學的重要人物英國學者 卡爾.皮爾生KARL PEARSON (1857-1936) ,它是一個大學問家,由於醉心馬克思主義,更把自己的名字由CARL改成 KARL,以示崇拜。  他亦對科學哲學和數學模樣有著濃厚興趣,在第一次世界大戰前後出版了《科學的文法》,是探討科學與數學本質的偉大著作,愛因斯坦曾推許為必讀之書。

皮爾生曾在倫敦生物統計實驗室跟隨優生學家 高騰 做過優生學的相關研究,在研究當中,他們發現了一個『向平均數回歸REGRESSION TO THE MEAN現象』,就是非常高的父母,子女往往較父母矮;而非常矮的父母,子女往往較父母高,故此人類大致上保持著一定高度。 他們亦提出『相關係數COEFFICIENT OF CORRELATION』概念,研究事物之間的相關度,而無需強調事物之間的因果關係。***

這些 “常識” 現在已經耳熟能詳,可見統計術語已融入我們常規教育之中,令大眾都有所認識。 不過高騰的貢獻就此止步,並未帶領人們走得更遠,他徒弟 皮爾生的觀點,才真真正正掀起了統計學浪潮。

在皮爾生以前,科學家做實驗,如果才能令數據可信度提高呢?最簡單就是將實驗不斷重複,但問題是究竟要做多少次才有足夠可信度呢? 這個問題以往科學家一直不多理會,因為19世界前的物理實驗,得到的數據一般都有很高的一致性,隨機性比較低,不斷重複實驗,每次都會得到很接近的結果。

但後來,科學家的要求提高了,再加上有一些實驗,在不斷重複下,所得到的數據本質就帶有隨機性,其結果使人不能輕易接受。

皮爾生用他獨到的數學技巧,推算這些數量的可信度,用嚴謹的數學手法給這些隨機的數據背書。皮爾生發明的就是 「適合度檢定 GOODNESS OF FIT— CHI SQUARE TEST」,藉著觀測值的數據分布,就可以推算到數據的可信度CONFIDENCE LEVEL有多高。 那在當時是一個重要的學術突破,從此觀測值跟預測值的誤差,有了科學的評估基準。***

 

現在統計學有了堅實的數理基礎,接著要介紹的統計學家是 費雪,他把實驗的過程序變得有條理,使得到的數據更有說服力。

〈費雪 〉應用統計學的始祖

英國統計學家 費雪爵士 SIR RONALD A.FISHER (1890-1962) 視力很差,如果光線不足的話,接近看不見東西,在使用紙筆規尺等輔助工具上時有困難。 他居然自創用代數方法去解幾何問題,由此可見他對數學見解獨到。 他考獲獎學金,前往劍橋大學修讀,熱衷於當時十分熱門的演化論,期間曾學習 孟德爾的遺傳學。(他成名後,在1940年曾指出孟德爾的實驗數據過於完美,欠缺了自然界的隨機性,故相信數據是做假的)。在學期間,他被當時流行的優生學吸引,曾經聯同經濟學家 凱因斯等人,創辦了個一個劍橋優生學學會。最後費雪通過了數學考試,翌年於劍橋拿到數學學位。

 

第一次世界大戰爆發,大戰環境大大影響了他對遺傳學的研究工作,但他亦不時幫助相關學術期刊審評文章, 保持了他對遺傳學及統計學的興趣。大戰結束後,他想發表鑽研已久的學術研究文章,可惜一直不被學術界所重視。原因是他屬於純數學理論一派,會用上較抽象的數學理論去解釋統計問題,甚或會用上更抽象的多維幾何方法。當時主流的統計學者因未能掌握這些過於高深的數學,而對他的論文不屑一顧。

鬱鬱不得志的費雪,迫不得已到英國羅森斯得實驗室工作,那所實驗室是由一間肥料公司開辦的,目的在找出人工肥料對農作物生長的影響,記錄了近九十年降雨量、肥料份量及農作物收成量等數據。多年來的數據一直沒有發表過,而且十分零碎及混亂。費雪肩負重任,負責分析那些數據。到底得出什麼結果呢?結果是一無所得,原因是降雨量對收成量的影響太大了,根本難以分離出肥料對收成的影響。這是實驗設計得太粗疏之故,九十年到頭來白忙一場,實為可惜。

這就是費雪日後寫《實驗設計》一書的主因。《實驗設計》舉出好幾個範例,給科學家提供指引,去設計實驗程序,得出有價值或代表性的觀測數據,以免白白浪費時間及資源。

及後費雪回到大學校園,繼續統計學的學術研究,範圍不單只應用統計學,而伸展到更廣更闊的領域,以及將前人的錯誤指出及修正,風頭可謂一時無兩。

以上兩位統計學家,為現代的統計學奠定了穩固基礎。透過扎實的數理邏輯及嚴謹的實驗程序,使一些多年來不確定的、帶有隨機性的實驗數據有了合理的估算,對複雜的世界有了新的處理方法,令科學開闢了新的道路。

 

資料來源:

《統計改變了世界 How Statistics Revolutionized Science in the Twentieth Century》(2002)
作者:David Salsburg
譯者:葉偉文
出版:天下文化

PermaLink: https://articles.zkiz.com/?id=80502

統計學看美股大修正概率

來源: http://wallstreetcn.com/node/103138

美股

近期美股持續上漲勢頭有所中斷,市場人士圍繞這是否一波大修正(超過10%)的開始展開了激烈的討論。

美國統計學家Salil Mehta發現,市場在越短時間出現跌幅越大,則後續出現大規模修正的可能性也越高,不過在實際操作中這樣的分析並無太大意義。他通過數據挖掘和統計後寫道:

出現10%或以上修正的概率約為兩年一次,同時一天之內跌幅在1~2%的概率約為每年20次左右。假設每一次出現1~2%的跌幅時都預示接下來可能發生10%以上的的修正,也就是每一次大修正都包含1~2%的日內下跌,則我們所有的大修正猜測中將有超過四分之三是錯的。以這樣的概率去摸頂意義不大。

不過,在生物統計學試驗中,有一種現象叫做“假陽性(false positive)”。可理解為,一個人經常以錯誤的原因作出對的選擇,意味著1~2%的日內跌幅只應被看做一種特殊情況,並不是典型預示更大修正的信號,尤其是處在長期上升趨勢中的市場。

但如果考慮到2%以上的日內跌幅情形,比如上周四的情況,這種情況的發生頻率會更低,約為每年6次。在近期低波動性的背景下,更是少見。那麽用類似的方法這次我們猜測大修正的錯誤概率依然有五分之三,比用1~2%的日內跌幅做信號時的概率會好一些。不過即使猜中了也要知道這是建立在2%日內跌幅基礎上的,時間差情況嚴峻,會侵蝕投資組合的表現。

如果再細分下去,用1天內跌3%的情況來作為大修正的信號,那麽這次猜中的概率會提升到了50%左右,不過也意味著你必須等到市場哪天大跌了3%才能介入這場遊戲。

上述實驗說明了有些問題只是等待被應驗,通過歷史數據揣測未來只是假裝高明。猜頂猜底只是個無盡循環的遊戲。當某人知道他已經正確了時候,全世界都已經知道了。

PermaLink: https://articles.zkiz.com/?id=108302

出特朗普勝出的統計學 周顯

1 : GS(14)@2016-11-21 03:48:12

http://eastweek.my-magazine.me/main/60581

常看我寫專欄的讀者都知道,我向來是認為特朗普會勝出選舉,這當然也沒有甚麼了不起的地方,畢竟,二個選一個,是猴子也能抽中的機會率。不過,我倒想說一說我的思考方法。

請記着,正如剛才說過,二猜一,只中一次,在統計學上,最少要有三十個樣本,才能有着一定的可信性。特朗普勝出的例子,充其量只是一個開場白,文學技術上「賦比興」的「興」,而不能算是一種說明。

一開始,沒有人想過特朗普會勝出,他是在大冷門的情況下,把不可能變成可能,先是成為了共和黨的候選人,直接面對民主黨的候選人希拉里.克林頓,在大部分民調都不利於他,直至選舉前的一天,美股依然微升,大家依然看好希拉里的情況之下,特朗普逆轉勝,跌了一地的碎眼鏡。

換言之,特朗普的勝出,是經過一連串的不可能,一連串的逆轉勝,在統計學上,這機會率是非常之低,只有一個可能的解釋。

如果你去賭場賭錢,玩骰寶,連續開了十舖三條六,你會怎樣想?由於連開十舖三條六的機會率,只有二百一十六分之一,那連開十舖,基本上是不可能,因此我有理由相信,這賭場是出千;又或者是,這賭場有人出千;又或者是,骰子和骰盅的確大有問題,只是賭場不發覺,因此賭場是清白的。

很多人會說,賭場的管理向來十分嚴格,不可能出錯,更不可能出千,甚至有賭場專家,作出過精密的檢查,都認為這骰寶是沒有問題的。專家的話,你不能不相信吧。

對不起,我雖然相信專家,但更相信數學。無論你怎麼說,我都不會改變我的看法,我都一定認為,骰寶一定有古怪。

這好比我常常說的故事﹕六合彩表面上是絕對公平的,但是多位外圍莊家被賭徒連買連中,按照民間智慧,縱然莊家想來想去,也想不明白內裏的乾坤,但是他們還是決定,從此不接受六合彩投注,又或是雖接受但大幅降低賠率比,以平衡風險。

另一個我常說的故事,是馬來西亞航空在2014年,先是MZ370失蹤,繼而MZ17被導彈擊落,由於飛機失事的機會是以千萬分之一計,同一航空公司在短短的四個月之內,連續失事兩次,機會率是接近不可能。因此,我不能不認為,這兩次失事,是由同一內在原因構成,只是暫時無人知道這其中的內在原因。

正是基於這個思考方式,如果特朗普連續勝出了多次不可能的初選,進入了最後階段,我雖然也和其他人一樣,想不清楚這其中的緣由,但是,我會傾向於相信,他的確是有一特別的能力,去贏埋最後一場決戰。

簡單點說,如果有一張賭桌,連續開了了十舖三條六,第十一舖,要我買,我一定再買三條六。這不是分析,而是民間智慧。
PermaLink: https://articles.zkiz.com/?id=316406

《時代》百人瑞典統計學宗師病逝

1 : GS(14)@2017-02-09 23:43:49

曾位列《時代》周刊全球百大最有影響力人士的瑞典統計學宗師羅斯林(Hans Rosling),日前因胰腺癌病逝,終年68歲。羅斯林是醫學教授,但憑着由數字洞悉世界的能力,享有「視學數據學尤達大師」美譽。他擅於以生鬼方式,把悶蛋的數字活化成懂得「唱歌一樣」,卻不失發人深省的見解,每每能糾正受眾對現實的錯誤理解。


打動蓋茨捐數十億

羅斯林的代表作是2006年一次演說中,以評馬方式發表《你們從未見過的最佳統計數據》,透過泡泡圖解釋「發展中國家」早在主要指標追上「已發展國家」,更調侃瑞典頂尖學生對真正落後地方的認知,在測驗中比大猩猩還要差。片段至今在網上有超過1,120萬次觀看,連微軟創辦人蓋茨都承認受到他的演說打動,決定向落後地方捐助數十億美元。2007年,羅斯林全身投入他創立的Gapminder網站,推動「以事實為根據的世界觀」。英國《每日電訊報》




來源: http://hk.apple.nextmedia.com/international/art/20170209/19922646
PermaLink: https://articles.zkiz.com/?id=326083

Next Page

ZKIZ Archives @ 2019