Siri遭遇勁敵Cortana 微軟語音識別能力已不輸人類

Random Tags

通銀慈龔張波 1125 豪特美科皇崗技以棠唔頭麻格倫奧斯陸人愛辦公地寫下未見瘋的過丁改的開多歐來殺生交歡帶一罪臺房會謠啦鬧黃水墨論斤電又照批二姐峰戀澄清那份月曾網吸投訴狹隘交戰宇稱登輝屋也生們被惹全街攝得錢後屋花

Siri遭遇勁敵Cortana 微軟語音識別能力已不輸人類

微軟研究員本周宣布，微軟經過訓練的神經網絡已可以像人工一樣識別人類的語音。

據Business Insider報道，在周一發布的報告中，微軟讓NIST 2000自動化系統與專業速記員進行了比賽。結果顯示，自動化系統的錯誤率首次低於人工。報告稱：“這是會話語音領域首次報告的(自動化系統)達到人工水平。”

而更強大的語音識別系統可以給未來的微軟產品帶來一系列影響。微軟CEO薩蒂亞·納德拉(Satya Nadella)宣布，會話技術對計算機的重要性將堪比圖形用戶界面(GUI)，而這樣的會話將在不久的將來進入所有計算設備。

關於這一成就，微軟在官方博客中表示：“這一里程碑將給用戶和商業產品帶來廣泛影響，語音識別技術將帶來明顯的增強。這其中包括類似Xbox的用戶娛樂設備、實時語音文本轉換等無障礙訪問工具，以及類似Cortana的語音助手。”

在智能語音識別領域，微軟的Cortana後來居上，行業評價已經超過了蘋果的Siri，目前微軟已經把語音助理覆蓋了各種計算工具，比如手機、平板電腦、電腦操作系統等。蘋果Siri表現糟糕，已經引發了蘋果高管的註意。就在近日，蘋果從美國卡耐基梅隆大學挖來了一個人工智能技術的教授，將負責組建人工智能研究團隊。

微軟團隊表示，接下來還要進一步提高語音識別的準確率。另外為了確保識別技術獲得更加實際的應用，微軟計劃在更加嘈雜的環境中，同樣實現高精度的識別，比如在一個熱鬧的餐館、人潮湧動的大街上，或是在狂風暴雨環境中，微軟希望在非正常環境下，語音系統也能夠準確理解人們說的話。

PermaLink: https://articles.zkiz.com/?id=219414

孩子學習開小差?人臉識別技術可以告訴你為什麽

人臉識別系統用於在線教育是怎樣一種體驗?不久前剛剛獲得科比投資的國內在線少兒英語培訓機構VIPKID正在準備做這件事。

VIPKID今日宣布成立北美教育研究院，將有1000萬美金投入教育研究，其中一項研究就是通過面部識別技術來判斷學生在學習過程中的感受，供教師及時調整教學方案。

面部識別應用於教育

你或許會回憶起小時候坐在教室里，老師在講臺上滔滔不絕，你在底下一臉懵圈的情景。師生之間的互動不足，直接導致了教學效率的低下。

互聯網技術的介入無疑會改變這種場景，這也是不少在線教育公司決心在技術開發上投入資金的原因，他們希望技術能讓線上教育能夠獲得比面授更好的體驗。

斯坦福大學教育神經科學教授BruceD.McCandliss認為，未來的網上教育要將科學和教育創新進行連接。

Bruce教授介紹，以百萬毫秒為單位，識別在學習過程中學生的面部表情，預見學生未來的面部表情以及分析出他的困難，老師可以進行有針對性的培訓。這是一種變革性的學習方式，將會給大腦回路帶來影響和改變。

盡管人臉識別已經是一項熱門的技術，但是應用於教育質量的提高仍然是空白。上海一家從事面部表情、心理情緒識別技術開發的公司此前對記者表示，這一技術目前多用於安防、導購、聊天以及客服領域。

但VIPKID創始人米雯娟認為於教育來說，這並不是一個未來技術，她對《第一財經日報》記者表示，在人與人的交流中，一些細小的面部表情、動作都是非常重要的因素，通過對這些信號的捕捉和分析，可以看出這個孩子上課是不是專註，是不是在和老師進行有效的溝通。

這類型的應用當然也需要龐大的數據庫來支持。公司提供的數據顯示，截至目前，VIPKID註冊人數60萬，付費用戶4萬，平臺上有超過4000名的北美老師。

美國教育風投進入中國

今年8月，VIPKID獲得科比退役後成立的“Bryant Stibel”風投基金的投資，也是繼阿里巴巴之後，科比投資的第二家中國創新型企業。

科比的這支基金專註在科技、媒體、大數據項目的投資。來自美國的教育風投Learn capital促成並共同參與了本次投資。Learn capital此前所投的公司包括Alt School，Udemy，Coursera等等。其中，Alt school就是技術助推教育變革的典型。Altschool“快速自我修複”的教育生態系統，針對數據庫里的學生動態數據進行調整，從而實現個性化的教學。

Learncapital聯合創始人RebortJ.Hunter認為，教育本身發展比較慢，但有新的科技出現時，會出現一個拐點，到時候教育可能會發生根本性的變革，在技術的幫助下擁有更高的效率。

Rebort介紹，Learn capital的投資原則是要找到在全球範圍增長最快的項目，能讓教育的機制和途徑進行變革，讓更多的人更好的去接受教育，並且通過技術讓教育變得更加的有成效。Learn capital對中國市場非常有興趣，中國線下的英語培訓市場已經到達1000億人民幣的規模，線上線下的轉變是可能的，但競爭非常激烈。

今年9月，VIPKID的營收首次超過1億。這家公司采用北美外教一對一的授課模式，北美外教資源已經成為國內K12在線英語培訓機構搶奪的資源。

教師成本是VIPKID的成本構成中比例最大的一部分，米雯娟表示自己最關註的是學習效果，北美研究院的研究成果將面向全球的K12教育。記者獲悉，VIPKID北美研究院的課題將包括四個研究方向：一是建立教師的科學評價體系，給學生匹配最合適的教師;二是改善課程提升學生自我認知能力;三是利用面部識別技術提供學生學習效率;四是識別母語學習者與外語學習者在大腦語言學習區域的不同，探索以母語化方式學習英語的方法。

PermaLink: https://articles.zkiz.com/?id=219601

上海軟件出口一半面向“一帶一路” 智能識別應用將比美國快

在互聯網技術快速叠代的當今社會，軟件產業作為國家的基礎性和戰略性產業，在促進經濟和社會發展中無疑擔當著重要的責任。作為服務貿易的重要組成部分，軟件貿易也對我國對外貿易升級轉型作出了不小的貢獻。

一半面向“一帶一路”國家

10月20日，上海市商務委副主任申衛華在第十四屆上海軟件貿易發展論壇上公布了上海市軟件出口的最新數據：“今年1～8月，上海市軟件出口達到19.2億美元，同比增長16.7%，預計全年將會達到30億美元，同比增長約18%；本市信息服務業今年前三季度經營收入約人民幣5100億元，預計全年將會達到人民幣6800億元，同比增長約15%。”

上述論壇給出的補充數據顯示，2016年1～8月，上海市企業共簽訂軟件出口合同2500個，協議金額30.67億美元，同比增長12.42%。

申衛華稱，上海市的軟件貿易最近幾年來呈現出幾個特點：第一，市場主體正在成長。今年1～8月，本市軟件出口企業達到367家，同比增長10.9%，出口執行金額超過500萬美元的企業77家，同比增長14.1%，軟件貿易企業隊伍和經營規模都有明顯的擴大。第二，貿易附加值逐漸增加。如今的軟件出口已從單純的銷售產品轉向銷售服務，信息技術服務已成為軟件出口的主要形式，占整體比重超過90%。第三，新興市場不斷拓展。今年1～8月，上海市企業向51個國家或地區出口了軟件，出口目的地個數同比增長10.9%，其中近一半是一帶一路國家。

“今年5月，我們商務委還聯合相關機構組織軟件企業前往印度、希臘開展經貿活動。在印期間，韓正書記在‘中印合作對話論壇’上發表主旨演講，還專門指出中印兩國在信息技術領域加強合作的重要性。”申衛華說。

為了促進上海市企業與“一帶一路”沿線國家企業的信息、通信和技術合作，本屆論壇還專門舉辦了“一帶一路”ICT合作交流會，邀請相關駐滬機構代表與軟件和信息服務業企業洽談，就國際業務需求、ICT產業發展情況開展交流。

識別技術應用將比美國還要快

毋庸置疑，隨著雲計算、大數據以及人工智能等新技術的日益成熟與完善，軟件將發揮越來越重要的作用。

在本屆上海軟件貿易發展論壇上，格靈深瞳聯合創始人及CTO（原谷歌眼鏡核心研發者）趙勇、易保網絡技術（上海）有限公司創始人兼總裁莫元武以及IBM全球認知解決方案的負責人分別就“人工智能和軟件業的發展”、“跨國經營、開拓國際市場的機遇與風險”和“硬件產品軟化與軟件產品硬化”議題進行演講。

趙勇在演講中表示，他和他的團隊已經掌握了感知領域的精準識別技術，也就是說，在50米範圍內，他們研發出的識別技術可以對車輛、人體和人臉等做遠距離的非常精確的識別，並將這些大數據轉化成結構化的信息，生成具體的標簽展開應用。值得一提的是，這些技術在我國現實實際的應用預計在2～3年就將初步搭建，這個速度可能比美國還要快。

但人工智能的發展始終伴隨著倫理以及更多現實問題的考驗。在被趙勇稱為“上帝之眼”的識別技術的普及中，如何來解決人類隱私的問題？

面對觀眾這樣的提問，趙勇在現場表示，人們需要在個人隱私和安全需求之間進行妥協。“比如，整個上海市有200-300萬個攝像頭，意味著這些攝像頭捕捉了大量的數據。只是這些數據來不及看和分析。目前中國有50萬逃犯，主要分布在城市，你很難想像這些逃犯離你有多近，但要找出他們非常難。雖然現在命案的破案率已經接近了100%，但成本非常高。而我們要做的就是用計算機來看完這些數據。”趙勇也不得不承認，如果這些大數據掌握在了壞人的手里，他們研發出的技術也將會讓這些數據的使用更為有效，這也是需要警惕的。

但正如最近美國國家科技委員會技術委員會的評估結果所顯示的那樣，對人工智能的擔憂幾乎不會對當前政策產生任何影響。對於長期存在的猜測性風險，最理想的解決之道就是提高能力，降低甚至消除當前已經出現的非極端性風險，比如安全和隱私風險等。

PermaLink: https://articles.zkiz.com/?id=219676

混戰語音識別人工智能的黎明快了

情感合成、遠場方案、喚醒二期技術和長語音方案……這些聽起來有些陌生的技術，未來將可能改變我們的生活。

11月22日，百度公司首席科學家吳恩達在談到百度語音技術的最新進展時，對外介紹了百度這四項語音技術，並宣布將免費開放給用戶和開發者。

“我們已經站在人工智能的黎明。”吳恩達對包括第一財經在內的記者作出樂觀的預測，他希望通過開放人工智能技術，讓每個人都能更容易地開發出“智能應用”。

不過，站在“黎明”的人工智能何時能有“質”的跨越，或許還需時日。一個細節是，在接受記者采訪的會議室里，吳恩達座位不遠處還是坐了一位實時整理文字的速記人員。

智能語音：已超正常人類的識別能力

事實上，開放語音 API（應用程序編程接口）已經成為行業趨勢。

今年3月時，谷歌在Next雲計算大會上發布了面向開發者的新機器學習平臺，並開放語音識別的API，即谷歌語音搜索和語音輸入的支持技術。Google Cloud SPeech API一開始將免費提供，以後再進行收費。這一應用包括了80多種語言，適用於各種實時語音識別與翻譯應用。

在開放背後，互聯網公司希望借此推動智能語音模型的進一步演進和智能語音技術的快速普及。

對於百度公布的四項語音技術，吳恩達告訴第一財經記者，目前百度還沒有收費的計劃，這些技術旨在解決用戶在使用語音交互的場合時，普遍感到困擾的一些關鍵問題。“目前的語音識別已經超過了正常人的語音識別能力。”

以情感合成為例，主要是基於深度學習和大數據處理技術，在數據采集、處理、建模等環節進行一系列創新，實現更接近人聲的富有表現力的自然朗讀效果。

讀者甘肅數碼科技有限公司總經理金大時告訴記者，目前“讀者數字農家書屋”在甘肅慶陽市試點，根據百度大數據合成情感語音實現書籍有聲閱讀，讓很多不識字的老年人和留守兒童也享受到了閱讀的樂趣。

而遠場方案技術則是百度自主研發的遠場識別技術，基於麥克風陣列，利用麥克風陣列束形成、語音增強、回聲消除、聲源定位等技術綜合實現高準確率遠場識別。

百度稱，開發者可以通過這一新的技術接口，使語音識別距離增加到3~5米，設備的語音喚醒率提升到95%以上，或解決長時間語音識別的準確率問題。這將為語音技術帶來遠比現在更多的想象空間，而不只是遙控電視或解鎖手機。

例如，百度在上海肯德基旗艦店投入使用的“小度機器人人機語音交互點餐”，可遠距離隨時應答點餐。

百度語音喚醒技術，主要是通過通用喚醒詞解析、大數據聲學模型、雙層解碼等技術優化，喚醒率達95%，支持用戶自定義喚醒詞。喚醒二期加入指令喚醒，優化喚醒和識別性能。

長語音技術則在LSTM （Long Short-Term Memory，一種時間遞歸神經網絡）音頻切分技術、深度學習預測停頓、說話人自適應、智能糾錯等方面技術突破。這意味著它將在方便語音輸入、內容記錄、智能客服、視頻轉寫等應用場景表現出想象空間。

這也令來到中國的斯坦福大學的人工智能專家James Landay感慨：“近兩年，受益於大數據和深度學習技術的不斷發展，語音識別技術突飛猛進，速度及準確性都有了長足進步。”

百度首席科學家吳恩達

智能語音混戰

語音技術作為人機交互方式的入口，是人工智能重要的一環。不只是 BAT（百度、阿里巴巴、騰訊），搜狗、科大訊飛等加速智能語音的布局，不少圍繞AI的創業團隊如雲知聲也都將語音作為探索人工智能的方向。

要想順利進入這一領域，需要的是多年的技術與經驗積累。

吳恩達告訴第一財經記者，語音識別技術非常複雜，最難的是核心技術的提升，例如識別率的提升，幾年前語音識別率還只有80%多，當時用起來還是相當困難；還有大數據語音合成等，現在的目標是如何才能遠遠超過人類的識別能力。此外，百度語音識別97%的準確率是在比較安靜的環境下達到的目標，在噪音幹擾的情況下如何提升識別率，百度還有工作要做。

除了百度之外，可以看到的是，今年9月，騰訊雲技術團隊和微信AI團隊開放微信語音處理技術，推出了智能語音服務。在語音識別、語音合成、聲紋識別等功能上提供了垂直領域定制化的語音產品。阿里的人工智能系統，已具備智能語音交互、圖像識別、交通預測、情感分析等功能。

在語音識別領域，搜狗 CEO 王小川在不久前的世界互聯網大會上透露，搜狗輸入法一天處理的語音輸入請求達到1.9億次，產生超過16萬小時的語音數據。在龐大的用戶基礎和數據積累後，可以把語音輸入做到更極致的狀態，如語音合成、聲紋識別等。

公開資料顯示，在技術指標方面，百度語音識別、搜狗輸入法語音識別、訊飛輸入法語音識別準確率達到97%，騰訊雲智能語音識別技術在通用領域中準確率達95%。

在投資人士看來，智能語音仍是一個好的投資機會。

此前，峰瑞資本早期項目負責人朱祎舟提到，盡管各家根據實驗數據得出的語音識別準確率達到 95% 甚至更高，但在實際使用時並沒有那麽高，前端的語音/聲學交互的很多問題如果得不到解決，整體的體驗始終不夠好；而包括家居、車載、可穿戴設備、機器人等大量智能終端的爆發，智能語音將變得更加友好和重要。

在IBM前全球副總裁、賽伯樂投資集團總裁王陽看來，未來人工智能在醫療、無人駕駛、金融、零售、安防、個人助理等七個領域有強大的應用空間。其中他提到，人工智能個人助理目前普遍應用於智能手機上的語音助理，語音輸入、家庭管家等，最終是在收集消費者的消費習慣，從而提供各類服務。

Research and Markets研究報告顯示，預計2016年全球智能語音產業規模可達82.3億美元以上，到2020年，全球語音市場規模預計將達到191.7億美元。

PermaLink: https://articles.zkiz.com/?id=224268

5G黎明前：識別對手尋找隊友

MWC開幕兩天，最為奪人眼球的恐怕是5G技術的展示。與去年不同，今年的展示更加生動，5G不再是書面報告中枯燥乏味的技術名詞，更多廠商都在用實際行動告訴消費者，我們能用5G做什麽?

根據3GPP定義，5G擁有三大場景，分別是eMBB對應的3D/超高清視頻等大流量移動寬帶業務，mMTC對應的大規模物聯網業務以及URLLC對應的無人駕駛、工業自動化等需要低時延、高可靠連接的業務。而視頻是5G應用最有想象空間的方向。而5G技術也將支持全新的前沿應用、促進商業創新並刺激經濟增長。

5G技術將在2020年在國內達到商用，而目前的過渡期，4G的能力將變得更強，5G技術優勢也將逐漸凸顯。行業內的對手變成盟友，更加催熟5G時代到來。

讓對手成為同盟

5G不再是一對一的遊戲，更多在3G、4G時代的競爭對手走到了一起，成為合作夥伴。

根據IHS Markit預測，在2020～2035年期間，全球實際GDP將以2.9%的年平均增長率增長，其中5G將貢獻0.2%的增長。

單是2020年，5G對全球經濟增長年度凈貢獻值就達到1630億美元(折合人民幣1.12萬億元)，因此各國政府及企業都在大力投入。巨大利益面前，對手也變成了盟友。

在MWC首日，記者在英特爾展臺看到了一系列基於5G技術的產品，比如基於英特爾28GHz毫米波5G技術與方案的BMW車自動駕駛的演示，英特爾與國內廠商中興通訊合作發布的面向5G的IT基帶產品 (ITBBU)等。諾基亞在MWC上表示，將采用英特爾5G調制解調器，應用於5G FIRST的初期部署，從而為使用固定無線接入的家庭提供超寬頻帶，以替代當前的光纖部署。

事實上，中國移動、中國電信、韓國電信、愛立信、華為等多家合作夥伴的展臺上也能看到有關英特爾的5G產品demo。

“5G的布局不僅是終端，它是從雲端到終端的，並且橫跨各個垂直應用領域的一整套端到端系統。”英特爾數據中心事業部5G基礎設施部總經理林怡顏對記者說。

從一定意義上看，5G技術正在帶動全產業鏈的聯動，更多的合作案例正在發生。

愛立信在MWC上展示了70多個應用演示方案，不少方案的開發都是與“競爭夥伴”聯合開發的。

在MWC上，愛立信與IBM聯合宣布，成功推出用於未來5G基站的緊湊型矽基毫米波相控陣列集成電路(簡稱IC)，工作頻率為28GHz。該IC已在相控陣列天線模塊中成功進行了演示，為準5G商用網絡部署鋪平道路。而在幾天前，愛立信還宣布了與高通就5G技術開發、早期互操作性測試以及與領先移動運營商針對特定項目進行推進而展開合作。

“愛立信希望推動整行業的標準化、5G的標準化，通過標準化把事情做大，讓所有的從業者都從中獲利。”愛立信東北亞區總裁Chris Houghton對第一財經記者表示，5G在技術層面上來講，可以傳輸海量的數據、降低時延等等，但除了更高速的技術特征之外，從工業上來講，這種新技術將催生巨大的行業變革，從工廠到交通運輸等等，都已出現了新的技術發展趨勢。

愛立信總裁兼首席執行官鮑毅康認為，所有的運營商，所有的行業都需要邁向5G，5G網絡不會采取與4G網絡相同的方式進行構建，因此大部分網絡設計和功能將基於雲技術。

5G應用案例正在發生

目前，我們正處在4G和5G的重要過渡期。

根據3GPP計劃，2017年到2018年是Release 15階段，將為5G商用提供全球規範;而2018年到2019年底的Release 16，5G的商用開發工作才正式開始。

“規則提出需要實現，這考驗企業對於高端通信技術的這種理解與相應的研發能力。”通信行業人士孫燕飈對第一財經記者說道。

盡管目前還處在規則制定的重要關口，但在MWC的現場，記者已經看到了更多的應用案例正在發生。

愛立信攜手領先的運營商和生態合作體系合作夥伴展示基於Cat-M1 和NB-IoT技術的更多蜂窩物聯網用例，例如，智慧城市、車隊管理、智能大樓、智能農業和制造業等。

“MWC不僅僅是通信運營商的展會了，今年還有很多的行業客戶工作人員過來了，比如說做交通運輸的，做無人機的企業，大家都看到了5G的機會。”愛立信展館的工作人員對記者說。

記者在MWC展館8號展的E區還看到了來自國內的大疆。負責MWC展臺介紹的大疆工作人員告訴第一財經記者，這是大疆科技第一次參加MWC展會。“從去年開始，大疆進入商用市場，其實也是想挖掘更多的行業用戶。”工作人員對記者表示，非常多的運營商以及行業用戶在咨詢大疆的這款行業級新品。

事實上，越來越多的企業希望通過MWC找到自己的行業客戶，而這也是此次MWC上展示的是更多實際應用案例的原因。

在高通的5G藍圖中，執行關鍵任務的產品(如自動駕駛汽車)、VR、物聯網是高度連接的未來三大支柱。記者在高通展臺看到，在快遞紙箱中植入LTE芯片，快遞可以秒變物聯網設備。

據介紹，高通該套可實時監測快遞狀態的芯片方案已和美國Verizon合作，快遞企業的定制化功能應用由Verizon完成。芯片不僅可實時檢測包裹位置，還包含有光線、震動等感應器，可監控包裹的意外開啟與摔毀。

除此之外，不少手機廠商也在布局5G技術，其中不乏國產手機身影。

自2009年啟動5G的研究，華為就致力於推動5G核心網技術和標準化的發展，獲得了包括SA2主席在內的多個關鍵席位。中興通訊則加速Pre5G規模商用。vivo也將在深圳、東莞、北京以及美國矽谷等地成立7個研發中心。

記者在現場也看到了不少廠商提出的4.5G方案，以解決過渡期的技術問題。

目前，諾基亞已經與電信巨頭Telefonica簽下了3年合約,用以在倫敦建設4.5G網絡。華為在MWC上發布的P10也正式支持4.5G網絡。並在全球布局超過55張4.5G網絡。

“羅馬不是一天建成的，5G也不能坐等2020年的到來。我們不能Wait It Happen，而應該Make It Happen。”華為常務董事、產品與解決方案總裁丁耘早前說道。

不僅更快

通過4G網絡下載一部2GB的高清電影需要5.3分鐘;但在5G時代，這一時間將縮減至6.4秒，甚至更快。不過5G技術的意義絕不止“更快”而已。

首先是更多的網絡被重新優化利用，高通認為，5G能夠更廣泛應用包括共享頻譜、授權頻譜、非授權頻譜的兼容。

高通推出的MuLTEfire技術，讓非授權的頻譜上蜂窩網可移動性得到大幅提升。可實現數十米到公里間的快速基站切換，傳輸速率達到LTE網絡的三倍增益。

MuLTEfire技術意味著更精準的定位，覆蓋不間斷。相比Wi-Fi、藍牙等現有非授權頻譜，MuLTEfire的優勢在於覆蓋範圍更廣、更高的吞吐量、移動性與可靠性。尤其在信號源不斷切換的過程中可保證更高的穩定性。

愛立信則攜手AT&T、Orange和Qualcomm technologies使用授權和非授權頻譜展示千兆級LTE如何增加現有網絡的容量並提高性能。

華為則認為5G在成本上可以給運營商以及行業客戶更大的空間。

在現場，華為發布了首個面向5G商用場景的5G核心網解決方案——SOC(Service Oriented Core)2.0。該方案將面向5G的全接入及全業務。

“比如說運營商進入商場的成本是很高的，需要比較高的準入費用，但在未來，通過網絡運營商可以為商場提供更好的網絡體驗，比如說導航的服務、商場推送信息的服務，通過大數據等技術手段分析購物行為，這樣也能降低運營商在商場的準入費用。”華為一名內部人員對記者如是說。

而在實際的應用領域，5G的目標市場包括了增強型的移動寬帶(EMBB)、海量物聯網(MIoT)和關鍵業務型服務(MCS)三類。

其中，增強型的移動寬帶最可能在近期爆發，這個階段主要以拓展移動寬帶覆蓋為主。由於這部分是現有4G的擴展，因此更容易完成。而後兩者才是5G內容的關鍵核心，在後兩個階段，5G將會帶來技術上的突破，也即現在所說的智慧城市、物聯網乃至VR/AR等技術的實質性進展。

而這些技術在目前為止所遇到的瓶頸將有可能隨著5G技術到來而解開。

除此之外，5G技術將對行業經濟帶來巨大想象，據IHS Markit預測，到2035年，5G將在全球創造12.3萬億美元經濟產出。5G價值鏈將創造3.5萬億美元產出，同時創造2200萬個工作崗位。

PermaLink: https://articles.zkiz.com/?id=237397

315曝光人臉識別安全漏洞支付寶和百度這樣回應

3月15日晚間舉行的央視3·15晚會曝光了人臉識別技術的安全漏洞，在現場的測試中，可以使用軟件後期修改人臉圖片進行臉部識別，從而繞過網絡實名認證系統。隨後，支付寶和百度紛紛對此作出回應。

支付寶針對央視315晚會曝光的人臉識別漏洞發表聲明稱，支付寶只對在當前手機上用密碼登錄成功過的用戶才開放人臉登錄。

據了解，人臉識別只是支付寶眾多保護中的一個環節，還有其他手段予以輔助，支付寶還會通過人工智能、風控系統等對賬戶的使用情況進行安全監測以確保安全，並不是所有用戶都可以使用人臉識別這個功能。

支付寶承諾，任何通過照片處理實現人臉登錄，導致賬戶被盜的，支付寶會全額予以賠付。

支付寶聲明全文如下：

圖片來自支付寶官方微博

百度方面，百度官方微信發布了一段親身驗證的視頻，結果顯示“通過手機錄一段視頻、一個照片是過不去的，真人可以快速通過。”百度表示，百度的人臉識別技術，能準確識別活人與照片。換臉App、靜態照片變動態這些都沒辦法蒙混過關，哪怕真人錄制的高清視頻都不行。

圖片來自百度官方微信

PermaLink: https://articles.zkiz.com/?id=241263

普強信息何國濤：瞄準語音大數據分析和車載，做語音識別就是要快、準和專註

來源: http://www.iheima.com/zixun/2017/0425/162800.shtml

普強信息何國濤：瞄準語音大數據分析和車載，做語音識別就是要快、準和專註

黑智 2017-04-25 19:11

普強信息何國濤：瞄準語音大數據分析和車載，做語音識別就是要快、準和專註

2015年，普強切入車載場景，聯手四維圖新和騰訊，共同開發出“雲+端+芯片”的智能車聯網大數據系統。

本文系i黑馬原創首發黑智（VR-2014）作者：趙雪嬌

語音識別是“最具前途”的領域

從北京大學和美國費城大學分別獲得計算機系碩士學位後，何國濤曾在HP、Aruba等公司從事Opencall、Voice XML、無線網關等產品的研究和開發，HP多媒體服務器的語音識別技術，就是他所在的小組研發的。

而也就是在Aurba，何國濤結識了蒲瑤。後者本科畢業於中國科技大學，是科大訊飛CEO劉慶峰同系校友，同樣也是從事語音識別相關產品的研發。

2008年，科大訊飛上市，一度壟斷國內語音識別市場的半壁江山。但那時的語音識別創業領域，還是一片待開發的處女地。後來被蘋果收購的Siri也成立沒有多久，而何國濤卻動了創業的念頭。

“我剛畢業時，根本還沒有人會說自己是學人工智能相關的。因為那意味著失業。”何國濤說。“也有很多人質疑，總是說這個方向不對，那個技術不好。而我們就決定，自己出來，在這個領域做一些事情。”

何國濤和蒲瑤最終還是決定，在語音識別領域做下去。“創業，我認為一是要有技術壁壘，二就是要有能夠賺錢的市場。我在惠普接觸了客戶需求，也懂得應用，我認為，語音識別仍然是最具前途的領域之一，而當時，其他人要進入這塊領域，也並非容易。”為了解決核心算法，何國濤還“挖”來了自己的師弟——IBM Almaden研究中心的李全忠博士。後者一直從事數據庫及雲計算研究，還獲得過IBM發明成就獎。

於是，普強信息最初的創始團隊形成了。何國濤擔任CEO，負責公司運營；李全忠博士任CTO，負責核心算法的研究；蒲瑤（普強信息VP）負責產品。2009年，普強信息在美國加州矽谷成立，並獲得了EDA之父黃炎松博士的100萬美元A輪投資。第二年，普強信息設立了中國運營公司，在矽谷和中關村都設有技術研發中心。2013年，普強獲得戈壁領投500萬美元B輪投資，2016年獲得四維圖新領投的近億人民幣的C輪融資。

目前，普強研發團隊占公司人員的80%左右，其中博士、碩士以上學歷者超過30%。

挑戰語音大數據分析

何國濤對公司的發展方向有長期的思考。“小公司做事要專註，現在普強一百多人只做垂直領域，包括車載和電話信道語音識別，而且要做到最好。其實這很簡單，就集中優勢力量做好一個小事情。”

普強在自身的語音識別和語義分析技術基礎上，就鎖定了兩個方向：語音大數據和車載。

當前，由於智能設備的大量應用，大量數據，尤其是呼叫中心等領域，大部分數據都是語音和圖像等非結構化數據。普強力圖提供語音大數據分析能力，為企業解決非結構化數據分析的需求。

2010年，普強面向呼叫中心推出了“千語語音識別引擎系統”和“千語千尋語音分析系統”。

據介紹，普強已經為金融、電信、保險等多個行業，提供了準確度較高的電話信道的ASR（語音識別）引擎。針對呼叫中心座席與客戶的對話，千語千尋系統的算法和模型接入後，能將不同地域口音的來電轉換成文字，還能根據不同的系統用戶需求，標註出關鍵用詞。

李全忠博士向黑智（VR-2014）介紹，“千語語音識別引擎系統”開發應用了深度神經網絡技術，通過語音切分技術和對識別結果的算法，進行語速探測、情緒識別等，以及對講話對象、時間邊界等進行分割，不僅提高了語音識別結果，也可以輔助企業進一步挖掘和分析海量語音數據。

當坐席和客戶通話時，接入了普強的千語千尋系統模型，不僅能將不同方言的來電轉換成文字，還能根據不同的系統用戶需求，標註出關鍵用詞，並針對其進行統計和專業化分析，挖掘客戶需求；對客戶流失進行預警分析，挖掘客戶投訴原因，進行幹預；或者替代人工質檢。何國濤舉例說，例如某保險公司就有2萬左右名保險銷售，管理者需要知道如何提高銷售成功率，客戶投訴的是什麽問題，客戶購買保險服務的原因是什麽等。“千尋”把這些問題都細化成文字，以解決客戶的需求，提升公司工作效率和營銷轉化率。

進行語音大數據分析，最基本的一點就是數據。李全忠表示，普強在呼叫中心電話線領域積累了十多年的數據，對電話語音數據處理和標註的積累，在業內是首屈一指的。

而對語音分析，最關鍵的比拼點，則是“快”和“準”。“準確度和識別速度往往要平衡，在不損失精度的前提下，我們可以做到最快，系統的全文識別率可達85%以上，關鍵詞識別率達95%以上。”李全忠博士說。他表示，千語千尋語音分析系統目前中文語音分析速度，是國內最快的。它擁有的文本分析引擎和索引處理技術，能夠實現分析操作在秒級以內完成，而業內多數語音公司的產品則要半小時甚至更久，千語千尋比之，要高出一個數量級。

除識別引擎及分析系統外，與國內外廠商相比，普強的優勢是擁有多年呼叫中心工作經驗的專家們所組成的專業咨詢團隊，以及完整的識別設備和工具，來協助客戶進行定制化應用服務，以保障企業最高的投資報酬率。

而據何國濤對黑智（VR-2014）透露，目前普強在業界公開招投標的項目中，始終保持著最高的中標率。

聯手四維圖新，切入車載場景

經過十多年的發展，四維圖新已成為國內數字地圖內容、車聯網和動態交通信息服務、基於位置的大數據垂直應用服務主要提供商之一。其數字地圖一直主導中國前裝車載導航市場，獲得大量、東風日產、北京現代等主流車廠的訂單。而和四維圖新的聯手，顯然加快了普強切入車載場景，迅速滲透車廠和車機系統集成商，積累大數據的步伐。

2015年，普強聯手四維圖新和騰訊，共同開發智能車聯網大數據系統 WeDrive。其中，四維負責導航，騰訊負責內容，普強主攻前裝。

微信圖片_20170425190505

這套智能車載語音系統，是由“雲+端+芯片”組成的。普強自主研發的是離線、在線的兩個聲學模型，其他的為集成。

陣列麥克風可抑制噪音回音，進行聲源定位。車載降噪DSP芯片可進行車載降噪去回聲，這也是普強的投資方——美國的一家芯片公司提供的。“他們只做芯片，花了大概一億美金做了十年，這就是壁壘。”

“從前端麥克風技術，包括硬件的DSP處理三到四個麥克風，到後端的雲端，整個一條脈絡已經打通了，基本上這個解決方案是最優的。”李全忠說。

另外，普強還可以做嵌入式識別，車機識別的系統直接在車機里面做，不用跑到雲端。車載需要保證穩定性、安全性，對嵌入式識別壓力非常大。普強會針對不同的系統和車機本身的噪音特性，分低中高端方案，量身定制識別算法。“把這些都優化進去，才能做到最佳，當然也要滿足用戶識別率的需求。”李全忠表示。

目前，普強車載語音系統已經被集成進多家國內主流車廠。普強最近也把嵌入式的算法嵌到四維收購的公司傑發科技，後者占後裝市場的70%，大幅提高了市占率。

用戶需求優先的“田忌賽馬”戰術

在何國濤看來，“專註”還有另外一層含義，即要準確理解用戶的需求。而對人工智能創業公司而言，算法並不是唯一，更重要的是，理解用戶的產品需求。從產品、界面、工作流到用戶層面的交互設計，都要圍繞它進行。比如，對車載產品而言，車速變化時，會影響到語音識別的準確率；車開得快，根本不會出現車旁邊有個人在走路的情況；車開得慢，就要小心旁邊打球的小孩……

針對用戶對產品的強需求出發，何國濤為普強提出了“田忌賽馬”的戰術。“算法肯定有最快的，但是在語音交互領域，準確率相差一兩個點並沒有本質差別。原來從 GMM 跳到 DNN，相對準確率增加了20%到30%，是很大的提升。可是現在大家使用的都是神經網絡，準確率達到95%或者96%，對用戶有什麽區別？我們沒有必要做20個系統功能，都保證96%的準確率。”

在車載領域，普強重點做的是導航、電話、音樂這幾個系統功能。“在車里人機交互的時候，一般用戶50%以上%的需求是在導航上，40%以上是打電話，還有10%是聽音樂、聽收音機、查股票等。如果把這3個主要需求都做到近100%的準確率，那麽整個系統的準確率就能超過90%。如果大家都只有100人，別人每個功能5個人，普強的3個功能每個都有30個人並且做到最好，這就是所謂的田忌賽馬。”何國濤說。

中國一年生產約2700萬輛新車，如果人機交互的系統每輛車收取一百塊，市場規模能達到27億。如何能在這片藍海中切到大塊蛋糕？按照何國濤的設想，未來普強會將多種交互方式融合，讓車像人一樣具備視覺、聽覺等多種感知能力。比如人可以用手勢調節聲音大小、調控座椅位置。要把這些技術很順暢地切到場景里面，這些工作更多是需要工程師來實現。“算法是第一步，剩下10%的事情，需要再花90%的時間做好。”

微信圖片_20170425190632

[本文系i黑馬原創首發黑智（VR-2014）。如需轉載請聯系微信公眾號授權，未經授權，轉載必究。]

語音大數據車載

贊(...)

文章評論

匿名用戶

發布

PermaLink: https://articles.zkiz.com/?id=246784

“萬能指紋”可破解65%的真人指紋識別

現代社會中，指紋識別功能讓智能手機變得奇跡般方便。只需輕輕一按就能解鎖，實現支付，無需輸入密碼。從網店里一包小小的零食，到一臺筆記本電腦，甚至是價值100萬美元的阿斯通-馬丁複古跑車，都可以用指紋支付來解決。在一些銀行的App應用中，用指紋識別還可以支付賬單，進行上萬美元的轉賬等等。

然而，便捷的背後永遠都留有讓人防不甚防的安全漏洞。在一項紐約大學和密歇根國立大學聯合發布的最新研究報告中指出，智能手機很容易被假的指紋識別所欺騙，這是由於人類的指紋中有很多根本性相似的特征。在研究實驗中，研究人員已經能夠開發出一套人工合成的超級“萬能指紋”(MasterPrints)，可以解鎖目前智能手機65%的真人指紋識別。

盡管研究人員沒有將實驗結果直接應用於真實的手機，一些安全專家也認為在實際應用環境中會遠遠低於65%的匹配率，但是這項研究還是引起了對於指紋識別這種高效的生物識別功能安全性的質疑。

加拿大卡爾加里大學系統和計算機工程教授、生物識別安全系統專家Andy Adler就指出：“雖然可能人們的擔心有點被誇大了，但是安全隱患是絕對存在的。如果十次指紋支付中有一次被攻擊了，這樣的概率還是很大的。”

IEEE會員、Integral Partners信息安全部門主任Kayne McGladrey對第一財經記者表示：“理論上如果能獲取清晰度足夠高的指紋掃描樣本，就足以制作一組能被傳感器識別的指紋模具，而且這種情況甚至可以在人們完全不知情的情況下發生。”

McGladrey還對記者表示，在時間緊迫的情況下，不法分子和警察都可以利用這個方法迅速解鎖手機，甚至不用知道這臺手機究竟屬於誰的。“這種破解方式之所以可行，是因為大部分指紋解鎖只錄用了部分的指紋，而且大部分用戶在設置時候會同時錄入2-4個不同的解鎖指紋，這使得破解的可能性大大提高了。” McGladrey說道。

理論上來說，人類的全指紋是很難被破解的，但是智能手機的指紋掃描因為非常小，所以只能讀出一小部分指紋信息。當人們在蘋果或者安卓系統上進行指紋輸入驗證掃描時，一般只有8-10張圖片被智能手機記錄，用於未來的指紋匹配。

通常人們在指紋解鎖時，只要指紋與圖片中所存儲的一張吻合，就能解鎖手機，這也是為什麽這一系統容易受到攻擊的原因。“就好比你有30個密碼，攻擊者只需要說對一個就能開鎖一樣。”研究報告的三位作者之一，紐約大學工學院Tandon School計算機工程系教授Nasir Memon表示。

Memon還指出，人們只要去創建一個“萬能指紋”的手套，便能夠通過少於5次的嘗試，解鎖40%至50%的iPhone。不過蘋果方面表示，這樣的概率在五萬分之一。蘋果發言人Ryan James表示：“蘋果測試過不同的情形，而且還通過引入其它的安全性能來防止手機的假指紋風險。”不過由於蘋果和谷歌的指紋技術大部分是保密的，因此風險很難被量化。

美國聯邦政府情報前沿研究項目奧丁(Odin)計劃負責人Chris Boehnen博士表示，手機制造商可以通過更加複雜的識別技術降低手機被攻擊的風險。“但是這樣會讓用戶感到不適應，比如他們需要按兩三次指紋才能解鎖手機。”Boehnen博士說道。

相比而言，通過硬件升級的方法可能會更加有效地降低風險。比如三星S8智能手機就使用了更大的指紋掃描傳感器，從而讓指紋錄入變得更加清晰，也更難被模仿。

McGladrey向第一財經記者介紹道，加入監測額外的生物識別特征數據如心率、體溫，也可以進一步改良現有的解鎖方式。例如，早在1964年心臟科專家已經發現每個人的心率都是獨一無二的，可以考慮利用PQRST波形心電圖特征解鎖設備。“但是目前，這還需要用戶佩戴額外的穿戴設備才得以實現。” McGladrey表示。

隨著生物識別技術在各種場景下的應用越來越廣泛，犯罪分子也在開發新的假冒身份的技術。信息安全專家談劍峰對第一財經記者表示：“盡管生物特征是每個人特有的，具有唯一性，但是任何技術只要大規模使用，尤其是非現場使用，一定會通過信息網絡，只要通過信息網絡，任何技術都要轉化成計算機能夠識別的0-1二進制代碼，這就不具備唯一性了。”

McGladrey對第一財經記者解釋道：“針對人臉識別的攻擊大多是通過高分辨率的圖像或視頻來騙過攝像頭感應器，甚至利用Facebook上的照片、視頻多種角度合成某人的視頻，區別於2D面部識別。”

他還提到最近的Windows Hello技術通過增加紅外人臉掃描功能強化安全性能。“這個功能會給用戶創建一個3D圖像，而3D紅外圖像目前還很難被仿制。” McGladrey說道，“但是與指紋解鎖相似，用戶還是可能會被迫進行人臉識別解鎖設備。因此，開發生物識別技術的公司還需要考慮加入遠程清楚遺失或者被盜設備數據的功能。”

PermaLink: https://articles.zkiz.com/?id=246826

平安集團首次披露金融科技版圖：每年投入十億美元人臉識別技術已對外輸出

來源: http://www.nbd.com.cn/articles/2017-07-15/1128250.html

每經記者肖樂

“平安不僅是一個金融公司，更是一個科技公司。”平安集團常務副總經理兼首席信息執行官和首席運營官陳心穎在7月14日的平安投資者大會上表示。過去五年，平安集團每年在技術創新方面的投入達到10億美元，這些投入已經為其內部業務帶來了極大的成本下降和效率提升，與此同時，平安也在將這些技術向外輸出，獲取利潤。

在7月14日的投資者大會上，平安首次披露了其在人臉識別、聲紋識別、區塊鏈等方面所做的技術創新以及應用落地。

“金融和醫療板塊還有很多需要科技提升的地方，例如社保的費改、費控，接下來會繼續在這兩大板塊加大投入，向更深的維度挖掘價值。”陳心穎在回答《每日經濟新聞》記者的提問時說道。

技術撬動四大生態圈

金融服務、醫療健康、汽車服務、房產金融是平安集團業務布局的四大生態圈，在這四大生態圈中，平安在人工智能方面的創新有著豐富的應用場景。

據平安科技首席產品專家區海鷹介紹，平安的人臉識別已經在集團內17個專業公司應用，幫助壽險、銀行、普惠、陸金所等公司提升了工作效率，節省了人力成本。例如，在人臉識別技術的幫助下，壽險的出單效率從過去的兩小時下降到了1分鐘，而人臉識別以及征信數據的應用能夠幫助平安普惠在三分鐘之內做出貸款的決策。

平安科技總經理陳立明表示：“平安科技對於人工智能的研究和開發，已開始從識別技術向更先進更複雜的預測和決策技術進發，進行信貸審核時的微表情研究，聲紋識別、流感疾病預測指數、駕駛行為分析等成果的深入研究。”

“利用微表情技術，能夠識別卡車司機的狀態，是否疲憊，能夠及時作出提醒，預防事故。”區海鷹舉例道。

不過與人臉識別技術相比，微表情、聲紋識別等技術還處在相對早期的階段。“人臉識別技術，17個子公司已經在用，聲紋識別還比較新，正在測試第一階段。1個正常人能識別100多個人的聲音，我們希望機器可以達到10億人。”區海鷹表示，“預計今明年會在業務中應用，比如放到電話中心使用。我們希望客戶一打進來就可以識別出他的身份，不需要所謂的電話密碼。”

從集團內部應用到同業輸出

除了集團內部應用，平安正在向外部輸出科技能力。據了解，平安旗下的金融壹賬通已經與國內超過200家銀行、超過2000家非銀金融機構合作。“金融壹賬通能夠幫助中小銀行做零售銀行，例如上海銀行的直銷銀行就是應用我們的平臺。”陳心穎表示。

在平安的另一個核心領域醫療板塊中，平安已經形成了一個智慧醫保管理服務平臺，累計推廣超過220個城市，幫助政府降低醫保支出、提升服務及風控水平。“通過控費、管理藥品使用、識別欺詐等，能夠幫助政府節省約14%的社保成本。”陳心穎解釋道。

在金融和醫療之外的場景中，平安人臉識別技術已經運用於深圳機場、深圳房管局、深圳社保等場景。未來，平安能夠與機場公安、深圳機場共建分析模型，在提升安保的同時，每年或可獲取超5億次航空旅客出行數據。

內部應用成熟後，再向外輸出，平安技術創新在創造內生價值的同時，也在獲取外部盈利。“科技能夠幫助集團低成本實現業績增長。例如由於我們能夠提供預測的技術，預測哪些地區更容易發生車禍，因此40%的車險事故能夠在5分鐘之內到達現場，這是科技為集團內部業務帶來的價值。”陳心穎表示，科技板塊孵化的公司陸金所、好醫生都會上市，為集團提供新的價值。

陳心穎指出，金融資產領域當前的市場規模為200萬億，未來可達到350萬億；醫療健康領域同樣具有較大空間，預計未來可以達到8萬億的規模。

“金融和健康醫療是過去五年投入比較大的板塊，也是接下來最核心的板塊。未來在金融和醫療還有很多要做，這兩個生態圈會繼續深入。比如社保的費改費控，希望能夠從客戶的角度去加大投入。比如金融壹賬通，目前雖然有200多家合作銀行，2000多家非銀金融機構，但平均產品數還不多，還有更深的維度要挖。”陳心穎向《每日經濟新聞》記者表示。

PermaLink: https://articles.zkiz.com/?id=254608

人臉識別“世界杯”競賽結果出爐，獵戶星空拿下有限制類第一名

來源: http://www.iheima.com/zixun/2017/0721/164257.shtml

人臉識別“世界杯”競賽結果出爐，獵戶星空拿下有限制類第一名

黑智 2017-07-21 19:00

人臉識別“世界杯”競賽結果出爐，獵戶星空拿下有限制類第一名

發布語音交互系統不久，獵戶星空又獲得了微軟百萬名人識別競賽子命題有限制類第一名。

近日，被業界譽為人臉識別年度“世界杯”的微軟百萬名人識別競賽落下帷幕。百萬名人識別子命題無限制類，Panasonic-新加坡國立大學合作奪得第一，CIGIT和中科院合作隊伍與美國東北大學位列第二第三；成立不到一年的中國人工智能創業公司獵戶星空，獲得百萬名人識別子命題有限制類（只使用競賽提供數據）第一名。

MS-Celeb-1M：人臉識別年度”世界杯”

2016 年 6 月，微軟向公眾發布了大規模現實世界面部圖像數據集 MS-Celeb-1M，含有 10 萬個名人的約 1000 萬（10M）張臉部圖片，鼓勵研究人員開發先進的人臉識別技術。

同時宣布的還有 MS-Celeb-1M 百萬人臉識別挑戰賽。參賽者需要根據（但不限於）挑戰賽提供的數據集作為訓練數據，開發圖像識別系統，從臉部圖像中識別 100 萬個名人。

據微軟技術與研究院（Microsoft Technology and Research）首席研究員/研究經理張磊博士介紹，首先，MS-Celeb-1M 的目標是識別百萬人臉，是計算機視覺內最大規模的分類問題，並且其中一個人物對應一個 entity，綁定了知識庫，並且知識庫中提供了每個人的職業，性別等等豐富的信息，從而解決了人物重名的問題，可以從識別達到認知。“最開始我們是面向學術界做的這個數據集，”張磊說，“但後來很多工業界的同行也表示我們的數據集對他們的研究工作很有幫助。”

據悉，本次競賽由微軟研究院主辦，借助計算機視覺領域頂級會議 ICCV 2017 的平臺，既包括大規模人臉識別競賽（Hard Set 及 Random Set），也推出全新的、更具挑戰性的小樣本學習（Low-Shot Learning）競賽。這場堪稱級別最高、難度最大的技術賽事，也吸引了全球人臉識別的頂尖團隊參與。

而在近日公布的結果中，百萬名人識別子命題無限制類，Panasonic-新加坡國立大學合作奪得第一，CIGIT和中科院合作隊伍獲得第二名，美國東北大學位列第三；有限制類（只使用競賽提供數據）第一名是北京獵戶星空科技有限公司。而識別單一訓練樣本的名人子命題無限制類（可以自由使用外部數據），第一名是NUS-Panasonic，有限制類（只使用競賽提供數據）第一名由美國東北大學奪得。

百萬名人識別奪冠有多難？

在一眾科研機構中，獵戶星空作為初創公司，顯得尤為引人註目。而在賽後，獵戶星空也向黑智對競賽項目和公司采用的技術進行了介紹。

據悉，和可以無限制地使用外部數據不同，有限制類別只能在限定的數據集內調用，比拼的是團隊的算法能力。而在本屆競賽中，只有獵戶星空一個團隊，采用hard級受限級（hard級）。

據了解，無限制類不是單純算法的比拼，在某種程度上是在比拼數據，數據越多訓練的模型越好，所以無限制類是算法和數據的綜合比拼；有限制類則是單純算法的比拼，也是從算法層面難度更大的比拼，“因為這個東西只能靠算法，因為數據是一定的。當沒有外部數據的情況下達到最高精度是非常困難的。”因此，組委會也認為獵戶星空的難度極高，單獨列了一項采用受限數據集的子項目。

最終，獵戶星空團隊獲得 0.75／0.606（random set／hard set）的高分，被組委會判定為接近滿分，遠超去年的記錄。

在此之前，獵戶星空還在另一項人臉識別國際賽事 LFW 上，僅用單個 Resnet50 模型就達到了 99.65 的優異成績，用比較小的網絡實現了極高的精度。

獵戶星空成立於2016年9月。而業界對其熟知，來自於今年6月，喜馬拉雅發布的小雅 AI 音箱，其背後的核心便是獵戶星空全鏈路自研的遠場語音交互系統。

小雅音箱_副本