📖 ZKIZ Archives


八評周鴻禕之一:生不逢時的360搜索 管我財

http://blog.sina.com.cn/s/blog_6bdb8fda0102e0xl.html
八評周鴻禕之一:生不逢時的360搜索
徽劍 
2012/08/24

編者按:本文作者徽劍,深圳徽劍網絡科技有限公司CEO,雷鋒網特約撰稿人。360推搜索,百度股價應聲下跌,業界震動,為此作者從4個角度對360搜索進行分析,並做出預言(文章觀點不代表雷鋒網)。

這篇文章,我儘可能迴避專業的技術,儘可能用通俗的語言給大家分析一下360等搜索,如有不當之處,請勿見笑。


一、周鴻禕的搜索情結
軍事上可以從一個統帥的性格,來判斷他可能的指揮方式。同樣,從一個企業的產品、企業運作,我們可以看到一個企業領導人的性格,從而從這個性格又可以進一步推測他下一步可能的行動。

360最近推出了搜索,這個徽劍我在07年的時候就說過,我說周鴻禕早晚還會做搜索,因為他不是那種願意做最原始的信息貢獻的性格,而是喜歡整合資源,或者說投機取巧的人。無論是早期的3721,還是後來奇虎聚合等,都可以看到這點。

周鴻禕其實是有很強的搜索情節的,因為他的第一桶金就來自一款搜索產品—3721,儘管後來這款產品被人評價為流氓軟件,但是不可否認一點,那就是在中國 互聯網普及的階段,對於大批連com和net是啥都分不清楚的人來說,3721讓他們使用熟悉的中文就可以在網上暢遊了。

當初3721是這麼宣傳的:「3721公司提供的中文上網服務──3721「網絡實名」,是第三代中文上網方式,用戶無需記憶複雜的域名,直接在瀏覽器地 址欄中輸入中文名字,就能直達企業網站或者找到企業、產品信息。」但是在網絡上3721被稱為是最大的流氓軟件之一,現已停止運營。

「3721網絡實名插件由奇虎公司現任董事長周鴻禕一手創辦,它通過地址欄實現中文搜索。2003年11月,雅虎1.2億美元收購3721公司,該軟件更 名雅虎助手。2005年10月,阿里巴巴宣佈完成對雅虎中國全部資產收購,3721業務隨之併入馬云手中。2006年,互聯網業內掀起「反惡意軟件」的熱 潮,周鴻禕率領360安全衛士成為反惡意軟件先鋒,曾經由他一手創辦的3721軟件(雅虎助手)則成了他「圍剿」的重點目標之一。當年9月,阿里巴巴宣佈 投資1億元繼續開發與推廣雅虎助手,但隨後並未看到有實質的市場舉動。」這是網上對3721的一段描述。

3721最大的爭議,就在於他的傳播方式,還有安裝後排斥競爭對手、獨佔用戶電腦的網絡查詢接口的技術手段。3721雖然給那些菜鳥網民提供了極大的方 便,但是對於那些掌握一定技術能力的熟練網民,還有就是被3721所幹擾的競爭對手,都會採取各種手段針對3721。從而使得3721在幾年後變得越來越 被更多的人所排斥。

當年的3721一出來,採用的是利用WINDOWS 98的系統漏洞,用病毒的方法進行傳播,在短期內就積累了海量的用戶。有人曾經問過徽劍 「你覺得中國最大的黑客是誰?」我當時回答「我也許不好說中國技術最牛的黑客是誰,但是我可以肯定周鴻禕是商業上最成功、規模最大的黑客。別的黑客只能賺 點小錢,他可以通過病毒等黑客手段賺到以億來計算的財富」。

當然,時過境遷,我們今天再來評價3721已經有些過時,下面就讓我們來看看360的搜索吧。

二、搜索的技術門檻
最原始的搜索,就是建立在數據庫基礎上的關鍵字匹配,後來進一步延伸到所謂模糊查詢、統計分析、知識發現等系列技術的應用。因為搜索,可以讓網民從海量的 信息中找到他需要的資源,減少了他挨個去查找的時間,提高了他的使用效率,從而使得今天的網民,在上網的時候,已經無法離開搜索。

很多人把搜索看的神乎其神,其實根本沒那麼複雜。只要一個會做網頁的技術人員、一個懂得存儲應用開發的技術人員、一個對C或者C++開發TCP/IP應用比較熟悉的技術人員、一個對索引檢索開發熟悉的技術人員,就可以組成一個搜索引擎開發團隊。


1、會做網頁的,去做跟用戶對接的那部分。

2、懂得存儲應用開發的技術人員,負責搭建存儲系統,一個最簡單的方式,就是搭建一批服務器,每個服務器分門別類,比如A組服務器負責存儲新聞,B組服務 器負責存儲娛樂等。再細分下去,A1服務器負責存儲人民網的,A2服務器負責存儲新華網的,B1服務器負責存儲李宇春的信息、B2服務器負責存儲周杰倫的 信息等等,如此類推,


3、對C或者C++開發TCP/IP應用比較熟悉的技術人員,就可以開發一個所謂「網絡蜘蛛」的爬蟲程序,其實說白了就是一個「離線下載」工具,下載下來後,對頁面裡面的鏈接進行分析,繼續不停找新的來源。


4、對索引檢索開發熟悉的技術人員,負責對抓下來的文本做進一步分析,利用單詞和短語庫,對文本進行分析,按照存儲服務器的配置,把不同的信息,存儲到對 應的服務器裡面。同時他還需要和1合作,對於網頁上用戶提出的查詢要求,他要做出文本分析,然後導引到指定服務器上調出相應結果。


以上就是一個搜索引擎的技術的大致體系,當然,實際中的搜索引擎,遠比這個複雜。區別就好比鑽天猴的煙花和火箭的那麼大。但是基本的架構原理還不會變化的。其實我們都知道,很多時候,理論很好明白,但是實際做起來會在細節上面臨大量問題。那麼這裡有哪幾個地方會比較難呢?


依照徽劍我對搜索引擎技術差不多十來年的關注,我總結出搜索引擎技術的兩大門檻:

第一個門檻:海量的數據蒐集和存儲,

第二個門檻:搜索結果的優化

下面分別表述:

第一個門檻:海量的數據蒐集和存儲,因為搜索引擎需要查詢大量的網絡數據,並且把這些數據抓回爬蟲服務器,在做進一步的處理,最後存儲在自己的存儲系統裡 面,對於大多數搜索引擎的來說,更多是通用查詢,也就是「亂查一氣」,你不知道上億網民會通過你的網頁接口,提交什麼樣的查詢關鍵詞。所以你只能儘可能多 的蒐集各種信息,以備不測。



這這個海量數據的蒐集就需要大量的爬蟲服務器、還有大量的時候去處理。問題在於不光是蒐集過來,這邊還得儲存,這就需要大量的存儲系統,說白了就是需要海量的硬盤。你想想,你要把差不多整個互聯網上的各種網站的數據都要抓一部分,甚至全部。這數據量多大可想而知。

第二個門檻:搜索結果的優化,這個就涉及到好幾個方面,一是存儲系統的數據檢索需要做到快捷方便,需要定期對搜索行為做出分析,對於不同熱度的查詢數據, 用不同優先權的緩存服務器來處理。二是對網民查詢內容的優化,很多時候,網民在查詢時,並不能很好的表達他的意思,所以如何去理解,給出儘可能近似的結 果,是非常關鍵的事情,打個比方,用戶搜索張柏芝,也許是要找謝霆鋒相關的,也可能是要找跟陳冠希相關的。三是存儲時要對網頁進行語義分析,如何準確識別 一個網頁的主要內容,還有這個網頁在網絡上的價值,比如是不是第一個發佈的?是不是有跟類似網頁區別的?等等,這些都需要做很複雜的工作。

目前而言,搜索引擎更多集中在文本或者說字符搜索上面,諸如圖片識別和語音識別、視頻識別,目前都在研究,也取得了一些進展,但是很遺憾,因為識別的效率、成本等原因,短期還無法在非專業領域有多大的應用。所以有關這方面的,這裡就不一一贅述。

三、360搜索的基礎
百度做搜索引擎已經差不多十年了,在這十年間,百度建立起一個極其龐大的海量數據系統,這個系統,儲存了海量的中文互聯網上的各種數據,基本上可以認為,百度存儲了一個中國互聯網的鏡像。通過這個數據系統,百度能夠為網民提供非常詳細、完備的網上數據信息。

那麼對照下360,這些年來,360即使有意開發一套自己的搜索引擎系統,充其量也就是開展技術研究,掌握一整套搜索引擎的技術架構,但是360沒有辦法 建立像百度那麼龐大的數據系統,因此360搜索檢索到的數據是不完善的,或許過幾年360能夠儘可能接近百度的數據量,但是現在不行。

這種建設不光是時間,還有金錢,徽劍我可以毫不客氣地肯定,百度的存儲系統的硬件造價,肯定遠遠超過了360公司的市值。

其次,更為關鍵的是,百度做了這麼多年的搜索引擎,對於中國網民的檢索習慣等,有了極其豐富的瞭解。這種瞭解,不僅僅是建立在一般的技術優化上面,更多是可以建立一整套完善的人工干預體系。

也許有人不明白為啥需要人工干預,道理很簡單,因為計算機無法基於語義分析,而網民使用搜索引擎的時候,是按照他的個人意識來檢索的,因此搜索引擎檢索出 最接近語義的結果,就成了一個非常迫切的任務。因此這個時候,建立在基於統計結果的數據基礎上,通過對於數據做出的知識發現,然後再結合人工輔助修正,就 可以得出更加完美的結果。

如果有人對上面這段話覺得不好理解,那麼大家可以去看看百度和谷歌的搜索結果,你會發現一個有意思的現象,越是精確性的檢索關鍵詞例如科技等方面內容,谷 歌做的比百度更準確,越是跟社會生活領域接近的內容,百度能夠讓使用者找到更多相關的有效信息。其實這個現象告訴我們,百度的人工干預遠遠多於谷歌,徽劍 我的定義是:百度是社會學系的,谷歌是數學系的。

以上的優勢,360即使高薪聘請頂級搜索引擎開發工程師,他也無法在短期內追上百度。如果說跟百度相比,360的優勢在哪裡呢?

如果僅僅從搜索的角度看,360的系列軟件,特別是瀏覽器有海量的安裝用戶,瀏覽器本身就是互聯網的入口,360可以利用瀏覽器上嵌入的導航頁面和搜索框,使得用戶默認選擇360搜索引擎。這就是360可以驕傲的資本。

除此以外,別無其他。

四、360搜索可能的幾種方向
那麼360搜索的瀏覽器優勢又會有多大?

很多人都在說,360有瀏覽器,所以360的搜索肯定可以做的很好,那麼徽劍要反問一句,微軟還有操作系統呢,那麼他的BING做得如何呢?網民使用搜索 引擎,其核心在於他能不能通過這個搜索引擎,找到他想找的東西,如果他試過幾次,發現找不到或者不是很好找,他就不會用的。就像bing這樣所有 WINDOWS系統上都裝了,但是大多數中國的網民還是不會去用,為啥?答案很簡單,因為BING提供內容,無法像百度那樣滿足普通網民的需求。

那麼有人會問360搜索會如何發展呢?徽劍我把看可以分為這幾個部分:

第一,利用360瀏覽器的搜索入口,從而帶來巨大的入口數量眾所周知,360瀏覽器在國內目前有較大份額,因此利用瀏覽器上的導航網址和搜索接口,吸引用戶使用默認的360搜索,這個肯定是360的重點發展方向。從目前360搜索推出來的這幾天看,也是這樣運作的。

第二,調用其他搜索引擎的結果。前面分析了360搜索面臨的「累積」門檻,也就是說,因為360缺乏大量的儲備網絡鏡像數據,因此不管360的搜索團隊技 術水平如何,他們在短期內都會面臨無法向用戶提供足夠的數據困境。因此從技術角度看,最簡單的方法就是調用其他搜索引擎的檢索結果,就像當初SOSO跟谷 歌合作,谷歌為SOSO提供檢索數據一樣。這幾天大家也看到了,360大量調用百度的數據。這種情況必然會導致雙方的版權衝突,不排除百度會採取技術手段 對360服務器端的爬蟲進行屏蔽。

第三,干擾其他搜索引擎的發展,360搜索的發展必然面臨其他搜索引擎的競爭,但是短期內360又無法提供足夠優質的搜索結果,那麼怎麼競爭?如同跑步比 賽一樣,如果你跑不過其他人,你又想拿第一,怎麼辦?一個最簡單的方法,就是讓其他人變慢。因為諸如360安全衛士、360防火牆等佔據了大量的用戶計算 機,那麼360完全可以對其他搜索引擎的結果展示頁面進行「安全」考察,可以採用的方法包括,利用360防火牆,干擾其他搜索引擎的數據包傳輸;利用 360安全衛士,對其他搜索引擎的結果向用戶報警,提示「有安全威脅」,從而實現干擾用戶的選擇。

第四,對於跟其他搜索引擎合作的網站等,採取諸如「提示警告」等方式,干擾用戶的選擇。這一招跟上面說的第三條做法很像,但是真對的是那些搜索引擎的客 戶,比如對於百度的付費客戶,如果360安全衛士等,在用戶檢索這些頁面時提出警告,從而干擾這些客戶的廣告行為,試想如果一個廣告客戶,因為在百度等上 面投放廣告,網民訪問時,頻頻被提示有「安全威脅」,大多數菜鳥網民會如何選擇?

五、綜述:
多年前,我就成功預言了360的搜索引擎之路,今天我又對360搜索做出了幾項預言吧。

有人問360的搜索未來能做多大?徽劍我的回答是,跟搜狗爭老二,但是短期內,只能是老三的位置,不要看這幾天的數據,因為360搜索的信息、用戶體驗等遠不搜狗,更不用說百度了。特別是周鴻禕的投機性格,始終讓我覺得他不是那種可以把一個產品做到長遠的人。

最關鍵是,我發現今天的360搜索,很多方面已經走上了3721的道路,所不同的是瀏覽器插件變成了瀏覽器等,下一步一些像前面說的那些手法,我覺得早晚必然會出來,一旦出來,必然會重蹈3721的覆轍。

PermaLink: https://articles.zkiz.com/?id=36564

Next Page

ZKIZ Archives @ 2019