ZKIZ Archives


全球互聯網流量(骨架)

http://www.iheima.com/archives/35824.html

怎麼把互聯網的流量結構表達出來。有不少軟件和程序,可以讓你輸入一個網站域名,給出若干步的鏈接結構,還能畫出圖。但這些都不能滿足我的要求。因為我要:

1.全球最重要的一些網站之間的鏈接結構

2.鏈接要有權重。這個權重是網站的流量。比如說swarma.org有10個上家和7個下家,現在我想知道這10個上家各自對swarma.org有多少流量貢獻,這就是權重了。

用矩陣的語言來說,cell上的元素不是0/1,而是百分比。

第一點很好做到,第二點卻是目前大多數免費的軟件或網站不具備的,各大搜索引擎自然也有這個數據,但並沒有公佈。

自己動手,豐衣足食。於是我決定自己搞。先是用python搞了半天,沒有搞定,於是換用我比較熟悉的mathematica。很快,一個程序就寫出來了,這個程序我稱之為Tube, 意思就是它能用來截取網絡上的數據(就和我們的一些新疆兄弟在國家的輸油管道上鑿個孔裝個私家小管子偷油的意思差不多)。Tube可以利用alexa的數據,得到網站的鏈接和流量。

Tube的工作方式是,輸入任意一個網站的域名,給出它最主要的10個上家和10個下家網站的名字,並給出權重。

在這裡初步展示一下兩張分析的圖:

第一張(圖一)是提取了google給出的流量排名全世界前1000的網站(google的ad planner每月會更新一次這個排名),將這些網站的域名導入Tube。這樣,我就得到了一張網絡。這張網絡勾勒了世界前1000大網站的流量來源和去向。這個網絡一共有將近3千個網站和2萬條有向鏈接。有趣的是,我們發現,全世界的流量地圖分成了兩大陣營。左邊這一塊的核心是google,youtube,facebook等,右邊的核心是baidu,youku,renren等。

非常有意思,中國的網站既山寨別人,又自成一個系統(中國cluster的形成有多種原因,例如語言,政治管制等)。其實很多地區的網站都有子系統,例如日本。但因為中國的流量實在是太大了,所以這個子系統的地位非常突出。


這3千個網站形成的網絡的度分佈是個長尾分佈,但有一個明顯的截斷。這是因為我們只考察了前1000的網站,出了這個排名範圍的網站數據是極度不全的,只能在別人的上下家list裡偶爾出現一下。因此我們取前1000個網站來看分佈,是一個類冪律分佈,斜率大概是0.8。我們知道Zipf指數是0.8,也就是冪律指數大概是1.8。而Barabasi等人(Barabasi,1999)估計的WWW網絡鏈接冪律分佈指數是2.1。這有兩種原因,一種是這十年來互聯網變得更不平等,另一種是我們只監測重大流量的鏈接結構,相當於互聯網裡的rich club(S Zhou,2004; V Colizza, 2006*)。也就是rich club裡面的鏈接是更不平等的。當然,還有可能和我們的數據量不夠(finite size effect, RL Axtell, 2001),或者是採樣的20個網站這個上限有關。

2.1和1.8,只差了0.3,為什麼要這麼計較?因為在冪律分佈裡,指數2是個分水嶺,關係到許多有意思的性質。例如指數大於2冪律分佈的尾巴才會收斂。

當然,這些都是泛泛而論,精確的結論需要更精細的研究。等到我完成手頭的相關研究,會把這個數據開源,甚至程序也可以開源,讓更多有志於探索互聯網科學和人類行為的人來共同進行這項事業。

最後,放兩張來自公司的圖。

第一張是facebook工程師畫的全球facebook交友網絡,樣本規模為1千萬,從5億(2010)用戶中抽出。

3

圖三

第二張是microsoft工程師畫的全球msn用戶地理分佈圖,樣本規模為1.8億,從全球2.4億(2007)msn用戶中刪除無效用戶後得到。

4

圖四

我們可以把這兩張圖想像成位於在圖一左邊核心的某兩個節點(網站)「眼裡」的世界。因為種種原因,他們看不清「對岸」的中國。在他們的世界地圖上,中國幾乎是空的。而從圖一來看,在population of user=intelligence的互聯網時代,中國的互聯網流量是絕對不容忽視的一個金礦。

這,也許就是為什麼google和中國有那麼多糾纏,多次聲稱要離開,但還是不願意放棄中國市場;以及為什麼Facebook創始人也訪問了中國。

PermaLink: https://articles.zkiz.com/?id=54086

Next Page

ZKIZ Archives @ 2019