導讀 : 跟機器說話,聽起來好酷!

人工智能成為熱門話題,在如今這個科技飛速奔進的時代,不知你是否想過,也許可以換一種智能化的方式完成搜索——比如,跟機器說話。

語音搜索技術——很好理解,通過語音完成搜索行為。

不同於其他人工智能技術的亦真亦幻,語音搜索是那種直覺上理應擁有的技術,它在幾十年前就是科幻作品中的標配。然而作為人類思維和知識的基本載體,語言(尤其漢語)的獨特讓其成為AI歷史上最困難的方向之一。不難理解,從戰勝李世石便知,機器無比擅長邏輯與程序性的單一任務,但人類自然語言並非形式語言,長久以來,機器無法分辨人類語言——甚至許多時候唯有母語使用者才能體察到的奧妙,這也讓語音搜索變得艱難。

但它必須進步。無論如今智能手機的井噴亦或未來整個IOT產業的崛起,人們都在企盼一種與機器更自然的交互方式,而語音搜索是最佳入口。這個世界上的科技巨頭無一不在強化語音技術的研究,谷歌某位資深工程師就曾表示,人工智能下個里程碑就是自然語言理解。

嗯,語音搜索並非“語音+搜索”1+1式的簡單串聯;語音技術,自然語言理解以及智能搜索的結合意味著一種趨向於完美的搜索樣態,它將帶動更龐大的搜索和服務生態。

更好的溝通:機器理解人類背後的智能技術

先來說說這項技術。

語音搜索是一項集成了語音識別,多輪理解,語義分析等在內的複合型人工智能,其實現過程要比封閉式規則的圍棋艱辛許多,它要求機器從思維,對話,情感等維度探尋人類充滿不確定性的複雜行為——溝通。

語音識別簡單講,即是針對複雜多變的語音搜索場景,通過深度挖掘大規模用戶行為數據,利用深度學習技術,理解用戶的表達,同時針對漢語一音多義的獨特性,結合用戶個性化信息及語義環境在同音候選中優選更可能為用戶需求的結果。

除此之外,人類正常溝通中無法避免的信息折損,也使得機器必須掌握多輪理解——在語音搜索中讓人與機器基於上下文語境多輪交談。具體而言,基於語義結構理解,指代消解等技術,理解用戶會話的上下文信息,實現對話的補全與替換,從而真正理解用戶需求。

當然,除了多輪理解,為了貼近更自然的對話方式,語義理解技術就變得頗為關鍵,這要求語音搜索必須包含對需求的理解和對數據資源的整合。這意味著機器可以完成某種推理和對於推理的驗證。譬如,當你發出“我要吃飯”的語音時,機器可以自動領會意圖,直接進入與餐飲有關的界面。機器精準理解語音背後的含義頗為不易,而也尤為重要,唯有突破了語義理解的門檻,機器才能進一步理解人類真實意圖,從而完成更為友善的交互。

更好的未來:人與機器高效與人性化交互

確實,每個心向未來的人,都在渴念人工智能的盡早落地。語音搜索這種非物理接觸式的人機交互方式,究竟意味著什麽?從最基礎的方面,它可以讓那些不會打字、不愛打字,甚至不屑打字的群體用比打字更迅捷自然的方式獲取信息與服務,數據顯示,使用文本輸入速度為1s/字,而使用語音搜索輸入速度為100ms/字。

可以肯定,應用場景的變化無常無疑會讓語音搜索將日趨成為主流。根據百度提供的數據,語音搜索的整體用戶在2015年增長超過3倍,而早期嘗鮮用戶一旦用上語音搜索,其後產生的黏性非常之高,而在粘性用戶當中,有60%的搜索需求都會使用語音進行表達。

毫無疑問,年輕用戶的搜索行為正在向語音靠近,尤其對於生長在移動屏幕之中的90後和00後用戶,與機器“對話”稱得上是某種天經地義。就像成年人驚訝地發現,兒童和嬰兒對於iPad等屏幕毫無違和感的本能觸碰,當語音技術日趨成熟,90後與00後也將與機器的交談視作生活本身——因為他們知道,無論是知識還是娛樂,只要你說出來,就能迅速找到想要的一切,何樂不為?

趨勢:順應人性的智能化生活

拋去技術不談,至少在現階段,不少成年用戶對語音搜索的本能排斥大概可歸為兩點:擔心隱私(理性角度)以及感覺“怪怪的”(感性角度)。關於第一點,技術就可以解決,語音搜索技術完全可以讓用戶在公共場合用只有自己才能聽見的微弱音量與機器對話。我想重點講一下第二點:觀念。

在許多特定的技術和觀念拐點,年輕人永遠站在正確的方向,倘若你對一代人的集體行為滿懷不解,那麽只有一個原因:你out了。技術革新與人類所謂的“主流觀念”之間的撞擊聲,簡直是科技進程之中的副本。每一項革新技術的誕生,似乎都是一次對過往主流觀念的更新。譬如微信普及之前,對著機器說話經常被視作怪咖;而手機能拍照之前,人們經常對自己會被陌生人錄像而敏感,但從敏感到無感,人們只用了短短數年。因此完全可以想象,語音技術的“破冰期”將無比短暫,因為年輕族群早已習慣於此。

哪怕從客觀角度,趨勢也擺在那里。智能手機只是未來的一小部分,新湧現出來的科技將讓更多人“被迫”轉向語音搜索。智能設備日趨豐滿,無論智能硬件,智能家居,無人汽車,還是智能機器人,不太可能指望全部通過文字與之溝通,而語音搜索能提高效率,以更順應人性的方式體驗智能生活。

縱觀整個人機交互的歷史,一個清晰可見的脈絡是:主流計算設備的每次形態改變,必然伴隨著人機交互難度下降——就像鼠標和Windows 圖形界面之於個人電腦,電容觸摸屏和iOS(及安卓)操作系統之於手機,語音搜索作為一種革命式的人機交互方式,在很大程度上消減了人類與機器之前的隔閡。

而從某種感性層面來說,倘若語音搜索有朝一日成為主流,那麽它勢必將人與機器的交流鍍上一層情感色彩,它會加劇人類對於機器的依偎。人與機器共同進化以聽懂彼此語言為前提,我堅信,以語音搜索技術為開端,人類終將打造出《星際迷航》那般終極意義上的移動設備。

還是那句話,在技術領域,未來十年將會令過去的十年黯然失色,而相信語音搜索技術的普及,即是通向那個更美好未來的重要一瞬。