消滅搜索框的多媒體搜索，路在何方？

Random Tags

風吹豐收子峽業垮羊腩鬥獸見大就漲金簽 hex 建後勁唔論戰首測負反饋使估柏逸一禁狗贏海殺呃到用排現眼凱晴危不 602 銷逾能買社先薩諾 Worldclass 到鬧車建擰頭就破陶枳月搵靚最身價產手二呎陀仔更神書皮要達牽制九強神老 995 福慧

消滅搜索框的多媒體搜索，路在何方？

來源: http://www.iheima.com/news/2015/0909/151895.shtml

37x58PICDuH

2015年百度世界展出了語音和圖像為代表的多媒體搜索技術，這並非其首次亮相百度世界大會，多媒體搜索已成為百度的重頭戲，與連接人與服務戰略、人工智能戰略一起構成百度的“三駕馬車”。

多媒體搜索越來越重要

各大搜索引擎在搜索框之外，迎來兩個新圖標：話筒和相機，分別對應到語音和圖像搜索。通過向搜索引擎說一段話發號施令，或者直接拍攝生活中的實景，表明搜索意圖更加簡單和自然。讓機器“聽”和“看”，是人類一直孜孜不倦的追求，這也是人類獲取信息最重要的兩種方式。

鑒於未來的搜索引擎不再是回答問題的“百科全書”，而是幫助人們解決生活中各類需求的“智能助手”，所以它必須越來越聰明，接近人類的智能。一個重要的改進方向便是交互，搜索引擎必須能聽、會看，才能實現真正的智能。所以，在後移動互聯網時代多媒體搜索會成為主流，依賴鍵盤輸入的文本搜索比重將越來越小。李彥宏對此早有斷言，他認為未來超過一半的搜索將來自語音和圖像為代表的多媒體交互。

語音和圖像搜索並非新技術，90年代IBM便推出了語音輸入軟件，2008年Google 就推出了Voice Search以及“以圖搜圖”，百度在PC時代也有過類似嘗試。移動互聯網時代語音和圖像搜索才進入真正意義上的商用階段。移動互聯網帶來了語音和圖像搜索的使用場景，帶來了具備麥克風、喇叭和攝像頭的智能設備，語音搜索和圖像搜索技術也迎來飛速發展，量變產生了質變，語音和圖像搜索正在走向大眾化，與文本搜索一樣舉足輕重。

百度猛攻語音和圖像搜索

多媒體搜索有廣泛的涵義，除了文本之外的“富媒體”搜索都算多媒體搜索，例如語音、圖像、體感、位置、社交關系、物質解析（百度筷搜）等輸入內容。不過，最重要的兩類搜索是語音和圖像搜索。在去年百度展出了通過拍照搜索識別動態衣服的技術，基於圖像搜索技術的百度EYE以及小度機器人，2015百度世界重點展出了語音和圖像搜索技術的進展，百度在語音和圖像上依然還在大力投入和不斷改進。

Siri為代表的語音助手普及，培養了人們通過語音與機器交互的習慣，在家里為代表的安靜場景、在車內為代表的雙手不空閑場景，在步行為代表的打字不便場景，語音都有很大的施展空間。而且語音不需要學習，包含情感色彩，能夠傳遞更多信息。倘若技術達到應用標準，語音交互技術爆發是必然事件。

語音交互與搜索引擎的結合正在日趨緊密，不久前Siri與百度達成合作引入百科等內容，百度在今年則陸續將語音與搜索、外賣等業務整合，百度做語音的底氣來自於兩點：一是技術上應用深度學習大幅提升了識別準確率；二是百度擁有豐富的後端內容和服務。這意味著百度語音和圖像搜索的發展對百度連接人與服務戰略有很強的支撐效果，百度強調要做更具技術含量的O2O，例如支持通過語音點外賣。

圖像搜索受益於二維碼的普及，不過二維碼是結構化的圖形，機器的最終目標是像人眼一樣去認識世界。人類90%的信息來自於視覺，“看”在信息獲取上是主要方式。上傳一張圖片讓機器識別並不是很自然，但如果機器都擁有攝像頭和快速識別能力，其理解世界的方式將非常自然。將圖像識別與後端知識庫和各類服務打通的圖像搜索，是一種所見即所得的自然搜索。

百度在這塊進行了大量探索，例如識別一張圖片中的物體並與廣告內容結合，識別圖片中的文字進行翻譯，識別文本化的題目並解答，識別藥品並介紹療效以及導入藥店……這些基於百度深度學習等後端人工智能技術，以及海量的圖片數據庫和內容知識圖譜。

對於百度而言，語音和圖像搜索的投入是站在交互角度來突破移動搜索現有形態。鑒於使用場景的特性，多媒體搜索對於百度連接人與服務戰略將形成很強的支撐作用。服務搜索主要來自於移動搜索，而移動搜索未來將走向多媒體搜索。除了連接人與服務，百度還有一個戰略是人工智能等前沿技術的布局，語音和圖像搜索的基礎正是來自於深度學習、大數據等技術成果的轉化。所以語音和圖像搜索成為百度將人工智能等研發成果轉化到連接人與服務實踐的“橋梁”。

多媒體搜索未來走向何方？

多媒體搜索依然還在起步階段，遠遠沒有文本搜索這樣成熟，這意味著還有很多創新空間。從多媒體搜索探路者百度的動作來看，多媒體搜索在未來有以下發展趨勢：

1、不同類型搜索相互結合。現在語音是語音、圖像是圖像，未來語音、圖像、位置、文本乃至視頻，各種形式的搜索會融合在一起，就像人與人的對話一樣，你理解對方的意圖即要聽、又要看（環境、表情、手勢……），可能還會結合上下文，總之是綜合多類搜索來理解的。未來多媒體搜索同樣會語音、圖像等並用，例如你可以拍照之後問百度一句話，“這張圖片中的狗是神馬品質”，模擬人與人的交互。

2、多輪對話式搜索興起。語音搜索現在大都是用戶問一句，搜索引擎給出一個答案，圖像搜索同樣只能進行“一輪”。但人與人之間的對話是有“上下文”聯系的，兩人之前談的內容，會影響之後雙方的理解。因此語音、圖像搜索未來會更傾向於“多輪”，即搜索引擎可以記住之前的多次交互過程，並結合此理解用戶的語音或圖像，例如用戶可以先問“廣州的天氣怎麽樣”再問”那邊有什麽好吃的”，這樣搜索引擎就可以理解“那邊”是指代廣州。百度已為此申請“多輪交互專利”，語音交互可進行需求引導，根據上下文和大數據分析智能糾錯；Siri則初步實現了某些Case的多輪交互，比如語音調用聯系人之後的二次選擇。

3、解析速度決定用戶體驗。語音和圖像搜索過去受限於計算速度以及網絡速度，有一定延遲，隨著雲計算、大數據相關技術的成熟，識別速度得以快速提升。4G和WIFI的普及、帶寬提速也逐步消除了網絡障礙。不過識別速度依然還有提升空間，如果問人一句話，給人看一張圖，要等幾秒才有答案還是讓人不爽，近期某手機廠商主打離線語音助手提升識別速度就反映了這個問題。搜索引擎正在通過離線識別等技術來提升解析速度，百度語音識別采取動態解碼技術，實現了僅幾十毫秒延時的快速識別。

4、基於場景的搜索服務能力。語音和圖像搜索在複雜的場景中進行，搜索發起的時間不同，地點不同，用戶的習慣、情緒有別，意味著背後有不同的需求，因此搜索引擎必須去識別用戶所處場景，與其位置、環境、個人畫像等數據結合起來分析，甚至嘗試根據語速、語調去分析用戶情感。同時整合豐富的服務對用戶需求進行滿足，比如當用戶在外面搜索“麥當勞”應該首先推薦周邊餐廳，在家里和辦公室則優先推薦外賣服務……基於場景去滿足用戶的搜索需求。

5、無處不在的語音和圖像搜索。現在百度語音圖像搜索主要存在於網頁版百度、手機百度、百度HD版等百度系產品中，但同時要註意的是百度已經通過開放平臺開放其語音和圖像搜索技術。這意味著許多應用和設備都有機會用到語音和圖像搜索，它是一種開放能力，例如智能音箱可以用語音搜索歌曲並播放，汽車廠商在車內預裝語音助手，智能電視通過語音操控和搜索節目……就是說，未來語音和圖像搜索是無處不在的。

PermaLink: https://articles.zkiz.com/?id=159333

📖 ZKIZ Archives

Random Tags

消滅搜索框的多媒體搜索，路在何方？