7月28日下午,長虹發布CHiQ人工智能電視,其最大的賣點之一是能在3秒內快速響應語音搜索,並根據用戶平常的收視習慣自動推薦內容。長虹自稱其語音識別率達到97%。
在發布會現場,出現了“機器人與電視對話”的場景。當機器人“瑤瑤”通過語音發出“我想看解密”指令後,長虹CHiQ人工智能電視三秒時間便在屏幕上播出電視劇《解密》;當“瑤瑤”發出“我想玩遊戲”的指令時,人工智能電視又以秒級速度推薦數款“瑤瑤”喜愛的遊戲……
長虹公司副總經理郭德軒介紹說,“長虹CHiQ人工智能電視不是跨行業的寬泛的大人工智能系統,重點是將人工智能與黑電垂直業務領域深度融合。”。
目前,長虹CHiQ人工智能電視在音視頻、教育、新聞等方面實現三大功能——認知、決策、反饋。長虹智能機器人“小白”,是住在CHiQ人工智能電視里的機器人,可陪伴、服務於“主人”,在看電視、聽音樂、玩遊戲等黑電業務上,讓用戶得到個性化服務。
“人工智能電視和普通的智能電視是有很大不同的。”長虹多媒體公司軟件與服務中心副總經理王鑫告訴記者,CHiQ人工智能電視在“認知”層面取得重大突破,基於長虹自主研發的Ciri+語音平臺,實現以人為中心的高效語音交互協同及語義識別與理解,使CHiQ人工智能電視語音在UI效果、響應速度、識別率、覆蓋率等方面努力做到行業領先。其中,語音識別率達到97%。
在“決策”層面,長虹大數據平臺對旗下智能電視500萬終端用戶數據進行采集與分析,得到了跨業務(直播、點播、音樂等)的全景用戶畫像數據。覆蓋用戶短期興趣及長期偏好,包括人口屬性、上網特征、觀影偏好、環境偏好、購物需求、消費能力等不同維度。
至於“反饋”,長虹CHiQ電視產品經理陳科宇表示,人工智能電視會隨著用戶使用的時間增長,自動記憶、分析和推薦“主人”的喜愛,更懂用戶的個性需求,即便用戶只是下達相對“模糊”的語音指令,也能為用戶推薦其需要的內容和服務,從而有效解決當前智能電視“內容多但不精準”、“老人小孩操作智能繁瑣”等用戶的痛點。
“長虹在人工智能領域的探索由來已久,如機器人學、機器識別、人機交互、計算與應用等均有布局,今天發布的人工智能電視只是‘冰山’一角。”長虹控股公司總經理李進博士表示。
據介紹,長虹從2012年開始進入人工智能的基礎研究工作。先後在傳感器模組開發應用、語音識別芯片開發應用、基於大數據的人工智能技術研發及應用、機器視覺(人臉識別)技術研發應用、工業機器人及工廠自動化技術研發及應用、家庭服務機器人技術研發及應用等方面取得了進展,不少成果已轉化於商業運用。
“人工智能是物聯網環境下的重要應用和發展方向,而其核心是大數據。”長虹公司首席技術官陽丹表示。2013年長虹和IBM成立大中華區首個大數據競爭力分析中心,並成立家電行業首個大數據公司。目前,長虹已擁有100多名高級大數據研發工程師。
美國西北大學教授、人工智能領域專家吳郢認為,目前,語音識別合成技術和自然語言處理技術有了不小的進展,它將會慢慢地從一種小眾的科技時尚變成更加大眾的日常生活。未來的產品將會更加聰明和智能,不僅通過計算機聽覺,而且可以通過計算機視覺來實現人和機器的更加自然的交流和互動。長虹在智能家電家居上的大力投入,是想以全新的姿態迎接人工智能時代的快速來臨。
搜狗發布語音搜索引擎“知音”,開啟人工智能在搜索領域的重要一步。
i黑馬訊 8月3日消息,搜狗公司今日正式發布了語音搜索引擎——知音,不僅動動嘴就可以識別、輸入文字,還具有識別速度更快、糾錯能力更強、支持更加複雜多輪的交互等功能。
據搜狗方面介紹,“知音”引擎解決了用戶在說話過程中因語速過快而導致的吞音問題。語音識別錯誤率相對下降30%以上,語音識別速度提升3倍;同時,“知音”能夠在語音交互中支持用戶修正錯誤的識別結果,用戶可使用自然語言進行改錯。比如,用戶可以說把“張”改為“章”。
此外,“知音”還支持多輪對話,處理更複雜的用戶交互邏輯,用更自然並且用戶更容易接受和理解的方式進行交互,輔助用戶更好的進行決策。
據悉,搜狗從2012年開始研發智能語音技術,並在2013年開始進行深度學習。目前,搜狗的智能語音技術已經成功應用至搜狗的全線產品中,未來將應用到物聯網、車聯網和人工智能等各個方面,並嘗試接入更多的終端。
——“我要去機場。”
——“T1還是T2?”“出發還是接人?”
這是手機用戶在使用搜狗語音交互的一個場景。
8月3日,搜狗正式對外發布了語音交互引擎——知音。搜狗CTO楊洪濤對包括第一財經在內的媒體透露,此前,不少語音識別停留在“能聽會說”的階段,借助人工智能,現在搜狗的語音識別還具有“能理解會思考”的能力。
而在楊洪濤身側的PPT大屏幕上,同步了搜狗語音識別對他演講內容的文字,第一財經記者看到,同步速記雖然偶有錯誤,但大意基本正確。
楊洪濤對媒體介紹,搜狗的“知音”引擎可以做到識別速度更快、糾錯能力更強、支持更加複雜多輪的交互以及更加完善的服務能力。
具體而言,在技術上,“知音”解決了用戶在說話過程中因語速過快而導致的吞音問題,語音識別錯誤率相對下降30%以上,語音識別速度提升3倍。
此外,“知音”能夠在語音交互的過程中支持用戶修正錯誤的識別結果,用戶可以使用自然語言即可修改之前的輸入文字。例如,說出“把(男)他改成女字旁的她”、“弓長張換成立早章”等,輸入法便可以馬上理解並正確執行指令。
在支持多輪對話上,“知音”能夠處理更複雜的用戶交互邏輯,用更自然並且用戶更容易接受和理解的方式進行交互,更好地感知用戶語音請求背後的真正需求,從而提供更為便捷的人性化服務。例如,當用戶說我要去首都機場,它會問T1還是T2,當用戶確定航站樓後,它會問是出發還是接人。
而在這背後,搜狗借助的是多年來的數據和技術積累。
楊洪濤介紹,搜狗從12年開始研發智能語音技術,並在13年開始進行深度學習,目前搜狗的智能語音技術已經成功應用到搜狗的全線產品中。
數據顯示,搜狗搜索日均語音搜索次數增長超過4倍,搜狗手機輸入法日均語音輸入超過1.4億次。
楊洪濤透露,自然交互和知識計算是搜狗在人工智能領域的兩大戰略方向,目前搜狗在AI領域的研發已經全面展開,並在智能語音領域取得了重大突破,“知音”引擎就是搜狗在自然交互方面的重要成果。而未來隨著搜狗在自然交互與知識計算方面的不斷完善,“知音”將會在更多場景為用戶提供服務。
在搜狗CEO王小川看來:“搜索本身就是一種AI,隨著人工智能時代的到來,搜狗將不斷增強自身技術實力的積累。搜狗目前已在語音識別領域取得了重大突破,未來一方面將通過與清華合作進行人工智能領域前沿技術研發,另一方面也將在自然交互與知識計算上不斷完善自身產品與服務。”
而在商業化方面,根據搜狐剛剛發布的截至6月30日的2016財年第二季度財報顯示,搜狗第二季度非美國通用會計準則下凈利潤達到2.2億元人民幣,同比增長30%;收入達11.5億元人民幣,同比增長27%。
記者4日從中國電信山東分公司獲悉,山東電信全面啟動全流量計費新模式,將語音、短信統一折算成流量進行計費,且語音與流量可相互自由轉換,讓消費者享受更多實惠。
隨著4G智能手機的日益普及,各類APP應用越來越豐富,手機用戶消費特征由過去2G、3G時代的語音為主、流量為輔,逐漸呈現以流量為主、語音為輔的新模式。但在現行計費方式下,經常會出現流量不夠用、語音有剩余的現象。
為響應國家“提速降費”號召,山東電信全面啟動全流量計費新模式,簡化了話費套餐內容,將語音、短信折算成流量進行計費,用戶僅需了解總流量額度即可,無需區分套餐內語音、流量甚至短信數據。
其中,用戶話費套餐中的流量可以自由轉語音,1M等於1分鐘,打多少分鐘電話就扣多少M流量,不會產生套餐內通話時長的結余。同時,套餐內的“國內流量”可折算為“國內通話”,打電話時不再區分本地、長途還是漫遊,全國範圍都是市話。
此外,山東電信還推出超大流量、超大語音的全新套餐產品體系,套餐資費更加實惠。
微軟研究員本周宣布,微軟經過訓練的神經網絡已可以像人工一樣識別人類的語音。
據Business Insider報道,在周一發布的報告中,微軟讓NIST 2000自動化系統與專業速記員進行了比賽。結果顯示,自動化系統的錯誤率首次低於人工。報告稱:“這是會話語音領域首次報告的(自動化系統)達到人工水平。”
而更強大的語音識別系統可以給未來的微軟產品帶來一系列影響。微軟CEO薩蒂亞·納德拉(Satya Nadella)宣布,會話技術對計算機的重要性將堪比圖形用戶界面(GUI),而這樣的會話將在不久的將來進入所有計算設備。
關於這一成就,微軟在官方博客中表示:“這一里程碑將給用戶和商業產品帶來廣泛影響,語音識別技術將帶來明顯的增強。這其中包括類似Xbox的用戶娛樂設備、實時語音文本轉換等無障礙訪問工具,以及類似Cortana的語音助手。”
在智能語音識別領域,微軟的Cortana後來居上,行業評價已經超過了蘋果的Siri,目前微軟已經把語音助理覆蓋了各種計算工具,比如手機、平板電腦、電腦操作系統等。 蘋果Siri表現糟糕,已經引發了蘋果高管的註意。就在近日,蘋果從美國卡耐基梅隆大學挖來了一個人工智能技術的教授,將負責組建人工智能研究團隊。
微軟團隊表示,接下來還要進一步提高語音識別的準確率。另外為了確保識別技術獲得更加實際的應用,微軟計劃在更加嘈雜的環境中,同樣實現高精度的識別,比如在一個熱鬧的餐館、人潮湧動的大街上,或是在狂風暴雨環境中,微軟希望在非正常環境下,語音系統也能夠準確理解人們說的話。
深圳有其他城市沒有的綜合能力、基礎設施與產業特征。深圳所具有的企業集群特征,將讓深圳會成為一個獨一無二的城市。
本文由深藍DeeperBlue(ID:deeperbluetech)授權i黑馬發布,季星整理,鄒思從編輯,杏子制圖。
人類從 PC 時代來到了智能時代。
首先出現的是智能手機,一個叫喬布斯的男人生前最偉大的貢獻之一就是把智能手機的使用難度降低、適用範圍擴大,以至於智能手機成為了人人都會用、人人都願意使用的生產工具。在這之後,智能音箱、智能家居、智能物聯,紛紛登場。
如果說整個 “芯片- PC -互聯網” 這一波的技術創新,造就了一系列如 Google 、Facebook 以及 Yahoo 等企業的成功;那麽這一些 “大名字” 有個共同特點,就是它們的商業模式都圍繞著以鍵盤作為輸入系統而產生的文本信息而產生。
智能時代,什麽樣的企業有可能會成為繼這些企業之後的巨頭?或者說,這些巨頭如果要順應潮流,最有可能會朝哪個方向去轉型?
答案可能出乎你的意料:是語音。
語音正在侵蝕搜索份額
這段話到這里即將戛然而止,因為我們要從行業轉向地域。
我們討論了智能時代中什麽產業可能會興起並變得重要,那麽,智能時代又會選擇哪一座城池?
保羅·格雷漢姆在他的名篇《市井雄心》的開頭說道:“偉大的城市吸引有抱負的人。在城市里徜徉時,就能感覺得到。城市在通過幾百種方式向你傳遞著信息:你能做得更多;你應該再努力一點。”
2016 複旦首席經濟學家論壇上,產權經濟學家張五常說:深圳現在已經超過香港,10 年之內,會超過美國的矽谷。
2016 年 10 月 11 日,中國廣東省委副書記、深圳市委書記馬興瑞以及深圳市市長許勤在深圳接待了蘋果公司的 CEO Tim Cook 。Cook 隨即宣布:蘋果將在深圳設立研發中心。這個新聞無疑比之後蘋果公司所召開的 Hello Again 發布會在中國取得了更大的影響。
深圳似乎正在逐漸成為一個閃耀著 “自由” 與 “創新” 光環的城市。除了漲瘋了的房價,深圳還擁有無人機制造商大疆、通訊巨頭華為、 3C 產品及半導體設備生產起家的富士康,以及消費電子生產商創維,等一系列著名科技大企業。
這些科技大企業毫無疑問在創造著財富的同時也滋養著科技創新。據 2014 年數據,在深圳,90% 的機構研究經費來自於企業。
並且由於獨特的文化歷史背景,深圳政府采取了大量獨立自主的制度創新來促成高科技中小企業的發展(稅收優惠、人才引進、政府投放種子基金)等等。
我們有理由期待深圳之光。
深圳 30 年前的 GDP 僅相當於香港的 0.2%,目前約為香港的 95%,成為我國創新增長的標誌。圖為平安保險在深圳建設的全國第一高樓—— 660 米的平安金融中心。
不久前,著名投資人李豐在一場舉辦於深圳的、平安銀行與峰瑞資本共同舉辦的聲學新技術產業論壇上講了他對智能聲學與科技投資新方向的看法。有一些觀點頗有前瞻性,我們把演講實錄編輯如下,並加上了後續采訪,分享給大家。全文已獲得獨家版權。
李豐在會上說:“中國即將進入或者已經在的智能時代,有兩者一定會成為受益者,一個是語音產業,另一個是深圳。”
1、未來顯學:語音技術
為什麽聲學/語音產業會和沿襲移動互聯網的道路,成為科技發展的重頭戲?
先看一下歷史。縱觀在整個 “芯片-PC-互聯網” 在美國四五十年發展過程中,大部分的商業模式都是圍繞著兩件事情發生的。
第一件事情是, PC(電腦)成為大眾所熟悉、所能夠使用的工具。做這件事情的公司叫微軟。微軟通過降低電腦的使用難度,把電腦變成了人手一臺、並且每個人都長時間大規模使用的工具。在過去的 40 年中,微軟是 PC 產業中的里程碑之一。
第二件事情是,鍵盤成為 PC(電腦)與生俱來所匹配的硬件輸入法。回想過去,雖然每個人在最初接觸電腦的時候都會非常不自然,但最後都勉強學會的東西,就是如何使用鍵盤。鍵盤是電腦天生帶來的輸入法。因為有了電腦,人們才會去使用鍵盤。
第一部計算機的構建基於電子管這一基礎元件;以穿孔卡片作為輸入(或輸出)設備,操作繁瑣,不夠簡便;鍵盤的出現在操作方面得到很大的提高。
PC 時代,在 PC 變成人們日常生活與工作的基礎設施的過程中,正是鍵盤所產生的文本信息,變成了穿透整個 PC 與互聯網發展過程中最重要的數據形式與數據模式。
後來所有基於互聯網技術所產生的商業模式,都是圍繞著鍵盤所產生的大量信息誕生的,包括這些如何組織、使用、消費這些信息,以及如何提高信息使用的效率。近如 2000 年以後,大部分的商業模式都是圍繞著如何能去更好地組織鍵盤所產生的數據,並使得這些數據能夠更好地被消費者所利用——比如 Google , Facebook 以及 Yahoo .
於是,如果我們做一個有趣的映射:什麽工具會像 PC (電腦)一樣,成為最重要、並且最廣泛使用的個人生產工具呢?答案是智能手機。
毫無疑問地,在智能手機這件事上,有一家公司做了猶如當年的微軟一樣的事情:通過降低工具的使用難度達到普及工具使用範圍的結果。這家公司叫做蘋果。
那麽,智能手機相對應的硬件輸入法是什麽?什麽是智能手機與生俱來所匹配的輸入法?
肯定不是鍵盤。事實上,智能手機是一個非常典型的對鍵盤不友好的設備。發展到今天,智能手機上都已經沒有實體的鍵盤了。具有實體鍵盤的智能手機的典型代表,黑莓手機,在今年( 2016 年)9 月 28 日宣布永久停產。
現在許多概念手機的設計,越來越突破我們的觀念。
但由於,鍵盤是 PC 時代花費了三四十年教育消費者建立起來的習慣。所以可以想見,鍵盤仍舊會持續相當長的一段時間。
重新觀察智能手機這個生產工具,它所相匹配的新的輸入設備、或者稱之為新的信息生產方式,只可能是三種:麥克風、攝像頭與 GPS。
舉個例子,我曾和不少人(包括騰訊的人)討論,為什麽微信比手機 QQ 在手機上來得好。事實上,三年半以前微信剛剛發布時,最初的用戶是把微信當成一個步話機來使用。在微信生產的第一天,微信就天然地使用了麥克風作為它的輸入法,而不是用鍵盤——這是符合效率提升的特征的。
再舉個例子,為什麽打車軟件能夠在智能手機時代如此流行。可以回想一下,在沒有打車軟件的時候,人們是怎麽溝通打車這件事情的。乘客打個電話,說自己在某某大廈、過 15 分鐘之後下樓、穿一件黑色的衣服,然後問司機大概多久能來接,目的是哪里,之類。司機會在電話里回答說,我現在在哪一條路上,距離多遠,大概多久到,開了什麽車。
打車軟件誕生在移動互聯網上,GPS 成為了信息的輸入方式。於是乘客和司機之間不再需要那一通電話來溝通,而是打開打車軟件 app,利用 GPS 就可以知道乘客在哪里、要去哪里;司機在哪里,多久可以來接乘客。
其他例子不用再贅述。可以看見,在智能手機這個終端上,天然地能夠提高信息生成效率、成就有效表達的,不再是鍵盤,而是語音、攝像頭,以及其他傳感器。
於是按照 PC 時代相同的邏輯,Google 、Facebook 、包括現在的人工智能,都是圍繞著處理鍵盤所產生的數據產生的商業模式。那麽同樣的,可以預測,在往後 10 年或者 15 年,在智能終端這個領域中,最大的商業模式一定是圍繞著如何去有效地分析、組織和使用語音、圖像以及其他傳感器所產生出來的數據和信息所產生的。
所以可以這樣合理認為,語音技術以及和語音技術相關的應用;圖像技術以及相關應用,在今天變得格外重要。而圍繞著語音、圖像以及其他傳感器所產生的數據,以及這些數據的生產、分析、組織和消費,在之後的很長的時間里,註定會成為智能終端領域中最重要的發展方向。
2、這一次 深圳
在中國,深圳即將會是受益最多的城市,甚至有可能變成最重要的城市。
中國眼下面臨的挑戰,是多數發達國家都曾經歷的挑戰,但中國的國情又有所不同,導致這一次挑戰和其他國家又都不同。
美國在二十年代成為了全世界最大的鋼產量國家,一個工業化國家,中國經歷過這個階段。在五六十年代,美國開始經歷消費升級、經濟調整的階段,中國目前正在這個階段。
看美國的歷史,對中國未來的預測具有參考意義。
五十年代的時候,美國的人口總數大概為 2 億,就業人口總量占人口總數大約 60%。在 1.2 億的就業人口中,結構組成是這樣的:工業(第二產業、制造業)就業人口占了將近一半,剩下的一半就業人口從事農業與服務行業。
到九十年代末期,美國的就業人口構成出現了極大的變化:工業就業人口占總人口比例只有 10%,農業就業人口占總人口比例只有 1%,而剩下 80%的人口全部在從事第三產業。
這麽大的變化是怎麽形成的?美國通過兩種方式到達了這個階段,第一種方式是消費升級,第二種方式就是科技創新。
從六十年代有 “矽谷” 這個詞誕生開始,美國在過去的 50 年當中引領了全世界這一科技創新當中最重要的龍頭。信息服務產業在美國從七十年代到九十年代中期,就業人口漲了 10 倍。
美國正是通過把制造業挪到了其他國家,同時大幅度增加了服務產業,並且抓住了芯片 PC 技術革命,從而得以誕生了一波科技企業。
中國有 14 億人口,就業總量接近 8 個億。中國的就業人口比例是這樣的:農業、工業與服務行業各占三分之一。也就是說,中國大概有 2 億多的農業就業人口,和 2 億多的工業就業人口。如果中國要往前進一步,一定會和美國一樣經歷一次產業升級。
但,中國最特殊的地方在於,中國的農業和工業就業人口基數太大,國家不可能在未來 10 年或者 20 年的時間中,把這兩個產業分別從兩三個億的就業人口完全轉移出去,剩下非常少的量。美國的就業人口結構轉移,也只不過轉移了兩千多萬的工業就業人口而已。
除了美國,日本也經歷過同樣的周期,大約在七八十年代。日本和美國不同的地方,在於日本把工業轉出了自己的國家,但日本錯失了科技發展的機會。香港地區也經歷過這個周期,但由於香港人口非常少,於是香港平緩地把電子表制造業轉成了現在的金融行業和旅遊。臺灣和韓國也都經歷過。但這些地區人口數量都不大,於是它們要解決產業就業人口轉移的時候,難度也是相對小的。
眾所周知,中國在這一輪產業結構調整中碰到了相當多的經濟問題。解決之道是保證在未來完成消費升級的過程中,仍然保留足夠大的就業總量留在第二產業,以完成工業升級。這件事如果不發生,就意味著中國會面臨到一個巨大無比的壓力和挑戰。和別的國家不同,工業是中國不會放棄的部分,這就是為什麽我們國家會從政策層面上來大力推廣 “科技創新生產力” 和 “科技轉化生產力” 的原因。
因此,可以下一個結論:由於中國與別的國家的迥異之處是擁有巨大的工業與農業就業人口基數,因此從現在往後看 5~10 年,中國無論如何必須要經歷一次 “工業升級” 與 “科技創新”,否則就會面臨巨大的經濟挑戰。
而只要工業升級與科技創新成為趨勢,那麽相比北京和上海,深圳顯而易見已經擁有無可比擬的優勢。
在最有可能應用新技術的各方向,不管是芯片還是智能設備,深圳積聚了足夠多的產業鏈、外銷和口岸等通道資源。所以說,對於在這些產業鏈基礎上,以及最有可能采用新技術的領域和方向中,深圳有產業集群、有產業工人,又有足夠多的產業鏈條環節,同時還有口岸資源。
現在,深圳市政府集中力量吸引科研人才,推出許多投資或落地的計劃。深圳還有幾個超大型公司,可以提供創業團隊和研發人員來源。除此之外,綜合氣候環境,以及其他因素考慮到一起,深圳最有可能就在這一類產業方向上變成聚集地,並且能夠在此後的經濟周期中越走越前。
因此,深圳有其他城市沒有的綜合能力、基礎設施與產業特征。深圳所具有的企業集群特征,將讓深圳會成為一個獨一無二的城市。
高新技術怎麽賺錢、做什麽賺錢,是一個永恒的話題。
本文由深藍DeeperBlue(ID:cyanhillvc)授權i黑馬發布。
半個月前的錘子手機發布會讓全國人民(包括我媽)知道了一家叫科大訊飛的公司,以及語音智能這件事。
我沒有在現場。據說老羅向觀眾們介紹了錘子的主要合作夥伴科大訊飛的一款產品——訊飛輸入法。老羅用很快的語速說出一大段長文字,訊飛做到了無時差翻出文字版本,並且識別結果幾乎沒有任何偏差,堪稱完美,現場一片歡呼。
訊飛輸入法支持 19 種方言輸入,相比蘋果的 Siri,以及微軟的 Cortana, 訊飛輸入法顯然在本土化上占盡優勢。
訊飛輸入法背後的公司叫科大訊飛,是目前國內最大的智能語音技術提供商。第二天,科大訊飛的股價在開盤點迎來了新高。鑒於從 2008 年科大訊飛上市開始股價表現平平,不少人表示終於熬到了可以套現的時刻。
除了訊飛,國內在近幾年內崛起了一連串致力於智能語音的創新公司,典型代表有思必馳、聲智科技,以及雲知聲。
人工智能時代來臨,語音技術公司的春天又來了。圍繞 AI 的創業團隊如雨後春筍,智能語音技術的應用成為它們打開市場的首要選擇,幾乎每個月都會有數款語音交互機器人發布。除了硬件,語音服務平臺也迅速被建立。鍵盤作為輸入系統即將被停留在上個時代,人類將用語言和機器進行交互。智能家居和車載成為語音產業最集中的領地,也即將誕生出先的爆發市場。
然而,高新技術怎麽賺錢、做什麽賺錢,是一個永恒的話題。事實上,熱炒的訊飛輸入法、訊飛語點以及訊飛語音雲,僅占訊飛的總營收 3% 左右,收入不足千萬。道聽途說的還有一件事,科大訊飛每年 20 多億的收入,其中絕大多數來源於鋪網線和做教育工程的集成,並非是高精尖的智能語音技術。
上個月,在深圳舉辦的一場小型內部智能語音研討會上,思必馳副總裁、聲智科技創始人,以及來自峰瑞資本、祥峰投資的兩位關註人工智能的早期投資人進行了關於“語音技術如何賺錢”的話題討論。恰好我在現場,覺得說得非常不錯,有些段落簡直堪稱精彩。於是要來了錄音記錄和版權,分享給大家。這里也許有你想要聽的實話、真話。
—— 深藍DeeperBlue 季星
2016.11.11
研討嘉賓
2012 年智能手機出現後,短短幾年內,國內就湧現了一大批語音相關的公司,像雲知聲、思必馳、科大訊飛,發展都非常迅速,很快進入了公眾的視野。這也得益於手機這個智能終端的發展,使得語音成為手機上的一個重要應用。
而在 2015 年,我們依然認為語音是一個非常好的投資機會。原因有以下兩點:首先,雖然在過去的兩到三年里,人工智能的發展使得語音技術取得了很大進步,但我們發現實際準確率仍然不夠高——雖然大家根據實驗數據進行宣傳,說準確率達到了 95% 以上或者更高,但實際情況是,在實際使用時並沒有那麽高。
拋開算法和技術方面不談,前端的很多問題我們還沒有解決。我打個最簡單的比方:過去我們討論的語音識別技術,有點像人類的大腦——在聽到聲音之後,我們如何進行翻譯,或是怎樣把它變成大腦可以理解的信息。但實際上,關於耳朵的問題我們還沒有解決——如何排除噪聲幹擾?如何在多人講話的時候會聽清想聽的內容?如何在距離較遠時分別聲音的方位?前端的語音/聲學交互的很多問題如果得不到解決,整體的體驗始終不夠好。
第二點,從數據上看,蘋果上語音搜索的使用率其實並沒有那麽高,原因在於,手機雖然不是鍵盤的,但觸屏的體驗還是很好的。發展的前景在於智能硬件:在手機之後,大量智能終端的爆發,包括家居、車載、可穿戴設備、機器人等,這些智能終端上的鍵盤——或者說手指就變得更加不重要以及不友好,而語音則變得更加友好和重要。
思必馳語音智能後視鏡,駕駛員在跟機器交流的時候,可以隨時打斷機器的說話,讓他去執行其他任務,讓機器做你臨時想做的事情。可以解放雙手,讓駕駛更安全。
基於以上兩點,我們認為,語音技術還會有更多發展和進步。
關於語音技術,大家其實一直都面臨一個問題,就是怎麽賺錢?科大訊飛 20 多億的收入,其中絕大多數是鋪網線和做項目工程,前沿科技類的東西其實是沒有賺到錢的。
在線上,我們本來可以提供 API 賺錢,但後來百度免費了,那其他人也只能免費了。做 APP 去對接服務,大家會覺得手機上的用戶習慣、行為習慣還沒建立起來。所以我想問就這個很實際的問題聽聽大家怎麽看。
這個問題很好,也很難回答。對思必馳來說,我們現在是在考慮怎樣把錢燒掉,並沒有考慮怎麽賺錢這件事,這件事情確實是比較難。
現在其實大家能夠看到,從 PC 和互聯網到移動互聯網、再到其他,語音很可能是一個方向。語音作為一個便捷的交互方式之一,隨著智能硬件設備的叠代更新,它有可能會成為替代觸屏的交互模式。這也是為什麽資本和技術都聚焦在這一塊,使得人工智能的一個小春天在寒冬中誕生。
賺錢這件事情,目前我們確實看不清。
但是圍繞著這個方向,我們可以看到一些大方向:一個是核心技術以及產品體驗的提升,這是必須要做的。第二個則是,我相信大部分公司,在未來肯定會有一筆相對不多也不少的技術授權費之類,雖然這部分不足以滿足資本需求。
然而我仍舊相信,未來無論是 2C 也好、2B 也好,在這個環節上大家都在探索。這條路徑是曲折的,但方向一定是正確的。
我先簡單介紹一下祥峰投資,我們是新加坡淡馬錫旗下的 VC,主要關註消費和技術領域的中早期投資,在人工智能方向投資了地平線、Maxent 等。下面我從投資方的角度簡單談一些看法。
要看怎麽賺錢,最主要的是找到需求在哪。在看了這麽多創業項目後,我們會思考在中國的消費生態下,那些賺錢的公司是怎麽來的?其實核心是抓住用戶的真正的需求點,從需求點出發,考慮怎麽樣去做產品,然後追溯到你的上遊,再到頂層甚至是芯片,找到哪里有機會。
首先,在手機端,語音作為輸入方式是有需求的,但剛才大家都說,現在如今只是在手機上做一個語音識別的技術,提供一個輸入的方式,希望通過輸入法建立 APP 來收費,顯然這在今天已經是不太可能的事情了——現在,沒有一個類似百度輸入法這樣鍵盤輸入的 APP 還是收費的。
即便語音是不一樣的輸入方式,但想要收費還是很困難的,特別是當大佬們都已經在做的時候了。這個時候,就要找到一個需求場景,並且上面沒有其他方案可以和你競爭——一個語音可以扮演重要角色的場景。
比如智能家居中的音箱,就是一個很好的例子:你不可能在音箱上去觸摸,也很難用其他鍵盤去輸入。因此,如果你找到一個和音箱產生交互的方式,那麽顯而易見你就是最好的,因為沒有其他強有力的替代者。
再說汽車。其實汽車里面,多年來大家使用的旋鈕、按鍵,本身是一個非常好的人機交互方式——它未必比語音輸入的效率低,反而效果很好,因為你可以做到盲操作。設想一下,在車里面我要換電臺的時候,我不用看中控,就可以摸到旋鈕去操作,或者在方向牌上有一個旋轉的輪子,可以讓我調整音量之類,這已經是最好的人機交互方式了,而通過語音增大音量或是切換頻率,則未必能更加直接和準確。
但是,在車中還有很多旋鈕無法解決的其他需求。比如。後排的一客需要和車發生交互——現在很多車都有後排獨立的空調系統,當乘客覺得後排的溫度太低了,希望空調調高一點的時候,現在的情況是只能讓駕駛者把後排的空調調一調,或者後排有自己調整的方式,但它未必是自動的方式。
如果能夠做到,通過一個很好的語音識別的陣列工具,很好的分辨出不同乘客的方位,到底是在主駕、副駕,還是後排的左邊或右邊,根據他們發出的語音指令滿足不同人的需求,就能產生一種新的交互方式。除了空調,還有的需求比如切換一個電臺、換一首歌,等等。
那麽從產業鏈上遊來看,這麽多年,芯片一直都是一個可以賺錢的事情。在語音識別這一塊,做語音的處理芯片,比如 iPhone 使用的 Cirrus Logic,在語音處理這一塊的算法做得非常好,它解決了語音降噪、方位識別上的關鍵問題。有了芯片作為載體,就可以基於傳統芯片的商業模式去掙錢。
Cirrus Logic 推出的 CS44130 可以為整個音頻信號鏈提供芯片,包括模擬或、數字輸入和揚聲器喇叭輸出之間的各個部分。它精小的設計可以大大簡化產品的設計。
往下走,在芯片的下遊,模塊也有賺錢的機會,就像今天聲智科技在做的事情一樣。如今的產業鏈分工是非常細的,很難再有像過去的飛利浦、西門子這樣的大公司,核心的部件、全器件的研發,一直到最終的產品都是由一家公司來做。在分工很細的情況下,芯片公司不可能再去做一個產品,也很難再去做一個模塊,中間其實需要的是一個做陣列的公司:把產品以一個模塊的形式提供,同時不僅僅做一個 PCB 板把芯片放上去,而是把算法結合在里面,體現出附加值。
最後,生產用戶真正使用的一些產品也有賺錢的機會。比如類似於 Echo 這樣的終端產品,京東和訊飛也在做,之前也有一些創業公司在做。不過,真正有機會的創業公司是能夠去開拓一個新的市場領域的。就音箱來說,這是一個長期存在的行業和產品,那麽,可不可以創造出一個新的產品形態?在這方面,創業公司往往擁有更大的機會,比如大疆在無人機領域能做到今天的體量,是因為它完全開創了一個新的產品品類。
圖為 Echo Dot, 它的場景就不是用來聽歌的,而是一個語音助理。
比如說機器人,雖然現在大家還沒有普遍使用機器人,但是它一定是一個趨勢性、未來性的東西。在家庭場景中,使用最為廣泛的其實是掃地機器人。很多人買了一段時間就未必再用掃地機器人了,其中有各種各樣的原因,可能掃得不夠幹凈,也有它不夠智能的原因——它是在完全沒有規劃路徑地在亂掃。如果現在我們能夠加入更多智能的東西,包括語音的交互,它就有可能成一個真正的智能機器人。你可以呼喚它:“掃地機器人,到我這里來,把這個房間打掃一下。” 而不是拿一個搖控器操作,或者走過去把它提過來。你的聲音傳遞給他,他就知道你的方位,就會自動朝你的方向走,這也是一個可以提升用戶體驗的方向。
為什麽會說語音技術賺不到錢?其實是一開始沒搭建好商業模式。剛開始提供雲識別,是 to VC 的模式,強調的是公司的品牌影響力。那一旦開了免費的口子,之後就無法再收費了。
我們現在希望能先把 “蛋糕做大了” ,之後怎麽分蛋糕大家再商量。但現在整個市場還沒有起來,所有做語音技術的都在燒錢。
聲智科技的起步有點特殊:它一開始就做硬件,大家看到很多的展示的產品,有我們授權的,也有我們自己的,都可以讓我們從硬件中直接得到收入,相對來說,我們最初的商業模式是非常簡單的。
圖為聲智科技的主要產品方向
但就像剛才我說過的一樣,這個是有問題的。光看硬件,是不足以吸引公司對我們的定義產生理解的,我們很難再做一個大規模的公司,這個時候,我們對硬件加軟件後端的理解就和訊飛產生了一些差異,我們並不把語音交互只看作一個輸入法,也就是說,我們把它定義為類似於其他的操作方式的升級。我們把它看作搜索的升級,也就是讓語音交互可能成為下一代的搜索。而我們現在做的是現代搜索的一個入口,有點像以前的瀏覽器和後面的百度、谷歌之類。可能我說得比較大一點,就是將我們原先的交互方式升級。
我們回想一下,在 PC 端時代,我們用得比較多的是谷歌和百度。那個時候,我們要打開瀏覽器、輸入內容,再去查找網頁,但是到了移動互聯時代,用手機時我們會發現,在手機上,我們很少去打開一個瀏覽器,打開百度、谷歌,再去搜索內容,至少頻次明顯比原先在 PC 上的頻率小很多。現在,我們已經更習慣打開 APP ——實際上,通過 APP 的形式,搜索已經被折疊化了。
我們現在知道,谷歌和亞馬遜對智能音箱很感興趣。提到智能音箱,我們又會發現,當我們面對沒有屏幕的音響是,你就不會去輸入或者打開 APP 了——也就是把搜索進一步折疊了,折疊的結果是,你去直接問它,這個效率明顯比前兩個的效率更高。實際上,這些都是由人性決定的——人的本性就是,喜歡向著簡單、高效去發展。
這個時候我們會發現,語音會改變未來搜索的狀態:現在的小朋友如果適應了智能音響的交互方式,很多時候他就會直接提問,而不是打開 APP,或者像 PC 時代一樣,輸入很多需要查找的信息。
電影《 Her 》的海報,電影中的主角愛上了他的智能設備——一個來自語音識別系統中的聲音。電影預言:在未來,人們都離不開基於語音識別技術的智能系統。
我們現在有一些微薄的收入,但是以後我們在里面怎樣能夠產生更好的方式,對我們來說,就是硬件+芯片,這在以後會產生更好的營收。移動端有很多 AP、很多的巨頭,但是這到底能產生一種什麽樣的新的商業模式,可能還都是在探討和摸索中。
現在很多巨頭,不用考慮營收,所以它們會盡量去做。對我們來說,只能先有硬件,然後下一步加輕量的方式,維持公司正常的商業運轉,然後下一步,看看會不會像我們預想的一樣,語音能夠下一代的搜索入口、甚至發生入口大戰,然後形成新的商業模式,能夠改變我們很多的行為習慣。這就需要各方面去探討和摸索,甚至還會掉進很多坑。
我相信第一波會有很多家公司做進去,因為大家經常說,第二波公司會做得很好,每個時代的發展都經常出現這樣的情況。關於定位,我們也不敢說什麽,只是先給大家提供完整的解決方案,不管是機器人、智能音響、車載,我們都更希望,大家共同開拓這個市場。同時,我們本身也是非常開放合作的。
情感合成、遠場方案、喚醒二期技術和長語音方案……這些聽起來有些陌生的技術,未來將可能改變我們的生活。
11月22日,百度公司首席科學家吳恩達在談到百度語音技術的最新進展時,對外介紹了百度這四項語音技術,並宣布將免費開放給用戶和開發者。
“我們已經站在人工智能的黎明。”吳恩達對包括第一財經在內的記者作出樂觀的預測,他希望通過開放人工智能技術,讓每個人都能更容易地開發出“智能應用”。
不過,站在“黎明”的人工智能何時能有“質”的跨越,或許還需時日。一個細節是,在接受記者采訪的會議室里,吳恩達座位不遠處還是坐了一位實時整理文字的速記人員。
智能語音:已超正常人類的識別能力
事實上,開放語音 API(應用程序編程接口)已經成為行業趨勢。
今年3月時,谷歌在Next雲計算大會上發布了面向開發者的新機器學習平臺,並開放語音識別的API,即谷歌語音搜索和語音輸入的支持技術。Google Cloud SPeech API一開始將免費提供,以後再進行收費。這一應用包括了80多種語言,適用於各種實時語音識別與翻譯應用。
在開放背後,互聯網公司希望借此推動智能語音模型的進一步演進和智能語音技術的快速普及。
對於百度公布的四項語音技術,吳恩達告訴第一財經記者,目前百度還沒有收費的計劃,這些技術旨在解決用戶在使用語音交互的場合時,普遍感到困擾的一些關鍵問題。“目前的語音識別已經超過了正常人的語音識別能力。”
以情感合成為例,主要是基於深度學習和大數據處理技術,在數據采集、處理、建模等環節進行一系列創新,實現更接近人聲的富有表現力的自然朗讀效果。
讀者甘肅數碼科技有限公司總經理金大時告訴記者,目前“讀者數字農家書屋”在甘肅慶陽市試點,根據百度大數據合成情感語音實現書籍有聲閱讀,讓很多不識字的老年人和留守兒童也享受到了閱讀的樂趣。
而遠場方案技術則是百度自主研發的遠場識別技術,基於麥克風陣列,利用麥克風陣列束形成、語音增強、回聲消除、聲源定位等技術綜合實現高準確率遠場識別。
百度稱,開發者可以通過這一新的技術接口,使語音識別距離增加到3~5米,設備的語音喚醒率提升到95%以上,或解決長時間語音識別的準確率問題。這將為語音技術帶來遠比現在更多的想象空間,而不只是遙控電視或解鎖手機。
例如,百度在上海肯德基旗艦店投入使用的“小度機器人人機語音交互點餐”,可遠距離隨時應答點餐。
百度語音喚醒技術,主要是通過通用喚醒詞解析、大數據聲學模型、雙層解碼等技術優化,喚醒率達95%,支持用戶自定義喚醒詞。喚醒二期加入指令喚醒,優化喚醒和識別性能。
長語音技術則在LSTM (Long Short-Term Memory,一種時間遞歸神經網絡)音頻切分技術、深度學習預測停頓、說話人自適應、智能糾錯等方面技術突破。這意味著它將在方便語音輸入、內容記錄、智能客服、視頻轉寫等應用場景表現出想象空間。
這也令來到中國的斯坦福大學的人工智能專家James Landay感慨:“近兩年,受益於大數據和深度學習技術的不斷發展,語音識別技術突飛猛進,速度及準確性都有了長足進步。”
百度首席科學家吳恩達
智能語音混戰
語音技術作為人機交互方式的入口,是人工智能重要的一環。不只是 BAT(百度、阿里巴巴、騰訊),搜狗、科大訊飛等加速智能語音的布局,不少圍繞AI的創業團隊如雲知聲也都將語音作為探索人工智能的方向。
要想順利進入這一領域,需要的是多年的技術與經驗積累。
吳恩達告訴第一財經記者,語音識別技術非常複雜,最難的是核心技術的提升,例如識別率的提升,幾年前語音識別率還只有80%多,當時用起來還是相當困難;還有大數據語音合成等,現在的目標是如何才能遠遠超過人類的識別能力。此外,百度語音識別97%的準確率是在比較安靜的環境下達到的目標,在噪音幹擾的情況下如何提升識別率,百度還有工作要做。
除了百度之外,可以看到的是,今年9月,騰訊雲技術團隊和微信AI團隊開放微信語音處理技術,推出了智能語音服務。在語音識別、語音合成、聲紋識別等功能上提供了垂直領域定制化的語音產品。阿里的人工智能系統,已具備智能語音交互、圖像識別、交通預測、情感分析等功能。
在語音識別領域,搜狗 CEO 王小川在不久前的世界互聯網大會上透露,搜狗輸入法一天處理的語音輸入請求達到1.9億次,產生超過16萬小時的語音數據。在龐大的用戶基礎和數據積累後,可以把語音輸入做到更極致的狀態,如語音合成、聲紋識別等。
公開資料顯示,在技術指標方面,百度語音識別、搜狗輸入法語音識別、訊飛輸入法語音識別準確率達到97%,騰訊雲智能語音識別技術在通用領域中準確率達95%。
在投資人士看來,智能語音仍是一個好的投資機會。
此前,峰瑞資本早期項目負責人朱祎舟提到,盡管各家根據實驗數據得出的語音識別準確率達到 95% 甚至更高,但在實際使用時並沒有那麽高,前端的語音/聲學交互的很多問題如果得不到解決,整體的體驗始終不夠好;而包括家居、車載、可穿戴設備、機器人等大量智能終端的爆發,智能語音將變得更加友好和重要。
在IBM前全球副總裁、賽伯樂投資集團總裁王陽看來,未來人工智能在醫療、無人駕駛、金融、零售、安防、個人助理等七個領域有強大的應用空間。其中他提到,人工智能個人助理目前普遍應用於智能手機上的語音助理,語音輸入、家庭管家等,最終是在收集消費者的消費習慣,從而提供各類服務。
Research and Markets研究報告顯示,預計2016年全球智能語音產業規模可達82.3億美元以上,到2020年,全球語音市場規模預計將達到191.7億美元。
情感合成、遠場方案、喚醒二期技術和長語音方案……這些聽起來有些陌生的技術,未來將可能改變我們的生活。
11月22日,百度公司首席科學家吳恩達在談到百度語音技術的最新進展時,對外介紹了百度這四項語音技術,並宣布將免費開放給用戶和開發者。
“我們已經站在人工智能的黎明。”吳恩達對包括第一財經在內的記者作出樂觀的預測,他希望通過開放人工智能技術,讓每個人都能更容易地開發出“智能應用”。
不過,站在“黎明”的人工智能何時能有“質”的跨越,或許還需時日。一個細節是,在接受記者采訪的會議室里,吳恩達座位不遠處還是坐了一位實時整理文字的速記人員。
智能語音:已超正常人類的識別能力
事實上,開放語音 API(應用程序編程接口)已經成為行業趨勢。
今年3月時,谷歌在Next雲計算大會上發布了面向開發者的新機器學習平臺,並開放語音識別的API,即谷歌語音搜索和語音輸入的支持技術。Google Cloud SPeech API一開始將免費提供,以後再進行收費。這一應用包括了80多種語言,適用於各種實時語音識別與翻譯應用。
在開放背後,互聯網公司希望借此推動智能語音模型的進一步演進和智能語音技術的快速普及。
對於百度公布的四項語音技術,吳恩達告訴第一財經記者,目前百度還沒有收費的計劃,這些技術旨在解決用戶在使用語音交互的場合時,普遍感到困擾的一些關鍵問題。“目前的語音識別已經超過了正常人的語音識別能力。”
以情感合成為例,主要是基於深度學習和大數據處理技術,在數據采集、處理、建模等環節進行一系列創新,實現更接近人聲的富有表現力的自然朗讀效果。
讀者甘肅數碼科技有限公司總經理金大時告訴記者,目前“讀者數字農家書屋”在甘肅慶陽市試點,根據百度大數據合成情感語音實現書籍有聲閱讀,讓很多不識字的老年人和留守兒童也享受到了閱讀的樂趣。
而遠場方案技術則是百度自主研發的遠場識別技術,基於麥克風陣列,利用麥克風陣列束形成、語音增強、回聲消除、聲源定位等技術綜合實現高準確率遠場識別。
百度稱,開發者可以通過這一新的技術接口,使語音識別距離增加到3~5米,設備的語音喚醒率提升到95%以上,或解決長時間語音識別的準確率問題。這將為語音技術帶來遠比現在更多的想象空間,而不只是遙控電視或解鎖手機。
例如,百度在上海肯德基旗艦店投入使用的“小度機器人人機語音交互點餐”,可遠距離隨時應答點餐。
百度語音喚醒技術,主要是通過通用喚醒詞解析、大數據聲學模型、雙層解碼等技術優化,喚醒率達95%,支持用戶自定義喚醒詞。喚醒二期加入指令喚醒,優化喚醒和識別性能。
長語音技術則在LSTM (Long Short-Term Memory,一種時間遞歸神經網絡)音頻切分技術、深度學習預測停頓、說話人自適應、智能糾錯等方面技術突破。這意味著它將在方便語音輸入、內容記錄、智能客服、視頻轉寫等應用場景表現出想象空間。
這也令來到中國的斯坦福大學的人工智能專家James Landay感慨:“近兩年,受益於大數據和深度學習技術的不斷發展,語音識別技術突飛猛進,速度及準確性都有了長足進步。”
百度首席科學家吳恩達
智能語音混戰
語音技術作為人機交互方式的入口,是人工智能重要的一環。不只是 BAT(百度、阿里巴巴、騰訊),搜狗、科大訊飛等加速智能語音的布局,不少圍繞AI的創業團隊如雲知聲也都將語音作為探索人工智能的方向。
要想順利進入這一領域,需要的是多年的技術與經驗積累。
吳恩達告訴第一財經記者,語音識別技術非常複雜,最難的是核心技術的提升,例如識別率的提升,幾年前語音識別率還只有80%多,當時用起來還是相當困難;還有大數據語音合成等,現在的目標是如何才能遠遠超過人類的識別能力。此外,百度語音識別97%的準確率是在比較安靜的環境下達到的目標,在噪音幹擾的情況下如何提升識別率,百度還有工作要做。
除了百度之外,可以看到的是,今年9月,騰訊雲技術團隊和微信AI團隊開放微信語音處理技術,推出了智能語音服務。在語音識別、語音合成、聲紋識別等功能上提供了垂直領域定制化的語音產品。阿里的人工智能系統,已具備智能語音交互、圖像識別、交通預測、情感分析等功能。
在語音識別領域,搜狗 CEO 王小川在不久前的世界互聯網大會上透露,搜狗輸入法一天處理的語音輸入請求達到1.9億次,產生超過16萬小時的語音數據。在龐大的用戶基礎和數據積累後,可以把語音輸入做到更極致的狀態,如語音合成、聲紋識別等。
公開資料顯示,在技術指標方面,百度語音識別、搜狗輸入法語音識別、訊飛輸入法語音識別準確率達到97%,騰訊雲智能語音識別技術在通用領域中準確率達95%。
在投資人士看來,智能語音仍是一個好的投資機會。
此前,峰瑞資本早期項目負責人朱祎舟提到,盡管各家根據實驗數據得出的語音識別準確率達到 95% 甚至更高,但在實際使用時並沒有那麽高,前端的語音/聲學交互的很多問題如果得不到解決,整體的體驗始終不夠好;而包括家居、車載、可穿戴設備、機器人等大量智能終端的爆發,智能語音將變得更加友好和重要。
在IBM前全球副總裁、賽伯樂投資集團總裁王陽看來,未來人工智能在醫療、無人駕駛、金融、零售、安防、個人助理等七個領域有強大的應用空間。其中他提到,人工智能個人助理目前普遍應用於智能手機上的語音助理,語音輸入、家庭管家等,最終是在收集消費者的消費習慣,從而提供各類服務。
Research and Markets研究報告顯示,預計2016年全球智能語音產業規模可達82.3億美元以上,到2020年,全球語音市場規模預計將達到191.7億美元。
今年的CES上,虛擬助手工具引領了一場巨大的風潮。
這次的趨勢是,汽車廠商獨領風騷,並紛紛開始布局人工智能。包括福特、寶馬、現代和尼桑在內的四大汽車領導品牌在CES期間宣布與微軟、谷歌和亞馬遜三家科技巨頭達成協議,為新車增加虛擬智能助手。
“貴賓室”的延伸
汽車制造商之所以會對此產生濃厚興趣,是因為語音助理可以使用在各種電子電器上,讓人們的駕車體驗更加方便。比如你在車上就可以控制家里的音響和空調。
日產尼桑和寶馬汽車已經選擇了與微軟合作,在不久的將來,被選擇的車輛將帶有Cortana助手。福特公司所有支持sync3系統的車輛也都已經與亞馬遜公司的虛擬助手Alexa合作。此外,現代汽車和戴姆勒已經表示,他們汽車的部分語音操作助理將與谷歌智能助理合作。豐田也在CES上公布了一個未來概念車,它擁有自帶的數字平臺,一個名叫Yui的虛擬智能助理。
此前蘋果的Siri助手通過公司的CarPlay軟件已經開始在一些特定車輛上使用。包括寶馬,尼桑,現代和福特在內的很多汽車品牌已經為此設定了新模式。
這次在福特公司的展臺上,Alexa也出盡風頭。工作人員對第一財經記者表示:“未來福特的司機可以在路上就把家里的車庫門打開或者關閉,播放有聲讀物,並且擁有記憶功能。”
在福特的展臺,第一財經記者遇到了哈曼自動駕駛視覺的負責人Rashmi Rao。Rao對第一財經記者表示:“雖然目前哈曼還沒有相關的智能助理推出,但這一定是汽車行業的一大趨勢。”不過,Rao表示,這個產品還沒有做好上市準備。
人工智能助理的戰役還遠遠沒有結束。哈曼不久前剛被三星收購。今年的CES上,哈曼展示了反黑客軟件技術,以及包括擡頭顯示器、下一代音響系統、自動駕駛在內的新技術。
在現代汽車公司的展臺上,工作人員向第一財經記者演示了測試樣本指令:“谷歌,現在告訴Blue Link啟動我的車並且設定溫度為72度(華氏)。”工作人員表示,谷歌助手將與公司本身的Blue Link軟件程序連接集成在一起。司機將能夠通過語音來操控啟動汽車,調整空調,鎖定車門或發送目的地細節給車輛。
而寶馬的車聯網數字平臺未來將會與微軟Cortana連接,能夠執行包括預定餐廳等簡單任務。寶馬公司表示,寶馬連接系統可以在約會地點不定的情況下隨時讓司機在路上保持被通知的狀態。
Futuresource的科技分析師Jack Wetherill表示:“我們可以看到汽車將會變成一個真正的娛樂空間,人們貴賓室的延伸。或許最終的結局是我們會舒服的把腳擡起看起電影,而數字助理在駕駛。”
現在,亞馬遜也在考慮為汽車做些什麽。IHS分析師Dinesh Kithany表示:“亞馬遜非常敏銳地察覺到了語音控制方面的巨大潛力,尤其是隨著智能手機App的普及,為人們提供了更加便捷的和設備溝通的方式。”他還強調,智能助力最關鍵的競爭優勢在於如何設計出符合用戶需求的應用場景。
不過,包括福特在內的一些汽車制造商已經警告司機,在使用此類產品時不要分心。去年,美國瑟賽克斯大學的研究人員發現,在開車時候使用免提裝置打電話和拿起電話接聽同樣使人分心。
Alexa的成功
當然,人工智能助理的應用也不僅僅局限在汽車領域。在CES的各大家電展臺上,智能助理所扮演的角色“技能”越來越高超,這讓家電制造商得以生產出更多智能產品。根據研究機構Gartner的一份研究報告,分析師預計到2020年普通人與機器之間對話將超過配偶之間的對話。
比如三星推出的一款智能冰箱,就接入了亞馬遜的Alexa語音助理,她會幫助你管理冰箱內的食物。比如哪些需要添置,哪些食物已經過去需要處理。用戶可以直接通過呼叫:“Hi三星”來喚醒系統,並且無需打開冰箱就能夠從冰箱立面的大屏上看到冰箱里面的情況。如果需要添置食品,用戶只需要在冰箱上直接點擊購買操作,非常便捷。而未來這一切,完全有可能在路上就能夠通過汽車與家用電器的連接來實現遠程操控家里的冰箱和洗衣機等等。
在過去近7年時間里,谷歌安卓系統的普及幫助谷歌開拓了大量新業務,而目前亞馬遜的語音助理Alexa對於亞馬遜的意義也非同尋常。受益於智能家居的普及,亞馬遜或許很快就能夠超越谷歌和蘋果,建立起一個全新的生態系統。就連華為在美國發布的全新的安卓手機都加入了亞馬遜的Alexa語音系統功能,以幫助華為進一步接近美國消費者,打開美國市場的大門。
受益於亞馬遜從數十億購物交易中收集來的用戶數據,Alexa在助人下單方面表現相當智能。如果你讓Alexa買幾袋無谷狗糧,它能夠記得你家狗狗討厭鮭魚味,從而貼心地建議你選擇麋鹿風味。
為了鼓勵用戶使用Alexa語音下單,亞馬遜甚至提供了特殊商品專供Alexa渠道購買。此外,亞馬遜也專註於智能家庭的服務。對於今年人工智能的發展趨勢,出門問問創始人CEO李誌飛對第一財經記者表示:“2016年,每次講到人工智能怎麽在消費品落地時,我就不停強調‘軟硬結合’,‘端到端’,‘全棧’等概念,今年我要再加上一個‘多場景聯動’。這將會是未來的趨勢。”