科技 新浪科技 語音助手風口再起 創業者往哪兒走?

語音助手風口再起 創業者往哪兒走?

新浪科技 2018-05-18 01:07

  當地時間5月8日,美國加州, 谷歌 I/O開發者大會開幕。谷歌CEO皮查伊和各產品線負責人講解了AI、谷歌助手等產品的進展。圖/視覺中國

  作為AI領域第一個現象級硬體產品,智能音箱在過去一年火到發燙,BAT也在一個月內先後入局。而一年過去,愛嘗鮮的極客市場已經飽和,市場增長逐漸放緩。

  直到5月9日凌晨,谷歌I/O開發者大會上,Google Assistant的流暢的人機對話像一陣春風吹過,不少媒體驚呼「谷歌『造人』了」,關於智能語音的討論再次佔據大眾焦點。

  緊跟其後,國內智能語音市場迅速復甦,僅僅一周內,就有包括雲知聲、小魚在家、三角獸在內的明星創業公司發布共計超過1.8億美元的融資。

  資本再次湧入,巨頭夾擊下,智能語音創業者該往哪兒走?

   不斷進化的語音助手

  1966年,麻省理工學院的計算機科學家發布了最早也是最著名的聊天機器人程序 Eliza,通過分析用戶輸入計算機的話語,然後將它們匹配以生成可能的腳本的響應列表。隨後,聊天機器人製造商不斷在Eliza的基礎上,打造更多人性化的聊天機器人。

  半個世紀過去,語音識別技術經歷了由小詞彙量、孤立詞的識別到大詞彙量、非特定人連續語音識別的飛躍。終於,2010年, 蘋果 收購了Siri,並與全球最大的語音識別廠商nuance合作,在2011年推出了搭載人工智慧語音交互軟體的iPhone 4S手機,語音助手從此被公眾所關注。

  發布之初,Siri支持語言種類少、反應緩慢、語義理解能力差,被公認為智商低、常常答非所問。但隨著技術的發展和市場的培育,Siri與電話、地圖、提醒、音樂等功能實現連接,不久前Siri還通過撥打電話幫助南京警方成功找到手機失主。

  Siri之後, 微軟 Cortana(小娜)、Google Assistant、 亞馬遜 的Alexa、國內的 百度 度秘、科大訊飛的靈犀等一批語音助手湧現。「目前國內的語音助手平台至少有50家。」智能語音交互公司思必馳CMO龍夢竹告訴新京報記者。

  技術公司們意識到智能語音互動會成為下一代技術產品最核心的用戶入口,但這些語音識別助手及搭載他們的硬體產品似乎並沒有戳中用戶痛點,直到亞馬遜Echo出現。

  2014年,亞馬遜CEO傑夫·貝索斯玩票似的做出智能音箱產品Echo,甚至都沒開產品發布會。但就是這樣一款當時在亞馬遜內部也不被看好的產品,由於首次搭載了語音助手,可以通過語音交互實現開關電器、定鬧鐘等功能,背後還有亞馬遜龐大的內容資源,面市兩周內銷量即達100萬。達到同樣的訂單數,iPhone用了70天。

  Echo的火爆催熟了語音市場,有媒體報道稱,業內人士表示,智能語音助手設備的全球需求將在2018年從3000萬台猛增至5000萬台。

   智能語音背後的黑科技

  從初代聊天機器人Eliza開始,通過圖靈測試就是這些智能語音類產品的共同目標。近年來,儘管深度學習、神經網路等技術有了顯著進步,但依然沒有一個機器人能夠真正通過圖靈測試。

  就在谷歌I/O大會首日,谷歌CEO皮查伊展示了Google Assistant的新功能——可以打預約電話的「Duplex」,它能夠模模擬人的語氣,幫助用戶完成電話預定理髮、用餐等操作。

  不久后,谷歌方面隨即宣稱,Duplex達成了一項里程碑式的成就——通過了圖靈測試。

  但是,在一些智能語音公司看來,Google Assistant只是「部分通過圖靈測試」。

  「圖靈測試最複雜的地方,就在於沒有邊界。」智能機器人公司Rokid副總裁向文傑解釋,在對話意圖可以窮舉的垂直領域,比如谷歌在此次I/O大會上展示的預定餐位、預約理髮等場景,經過積累數據、打磨、優化,做到谷歌展示的準確理解對話意圖、做出相應反應並不難。

  「在電話預約等命令類語音助手使用場景,即便有上萬種說法,但對話的意圖是可以窮舉的。語義理解在單一領域可以打磨得非常好。」向文傑說,語音助手通過語義理解,識別每句話的意圖,即可通過對話管理功能做出得體應答。

  但向文傑同時表示,每個行業都有不同特點,把每個領域的各種對話情況都窮舉出來,是非常耗費人力的。根據現有的科研進度,沒有一個公司可以在短期內做到深入理解所有場景。

  在他看來,谷歌這次的展示,最讓他驚艷的技術在於語音合成(即TTS,文本到語音),也就是引起輿論狂歡的「像真人一樣的語音語調」。

  TTS自然度的一個主要測試標準是MOS(Mean Opinion Scores),其評分在1-5分,其中5分最好。

  「像我這種水平的普通話,得分在4.5左右。國內大部分廠家的TTS可以做到4.0分,也就是人們常說的有『機械感』的發音,而谷歌這次做到了4.6。」向文傑說。也就是說,Google Assistant的發音,已經做到了比正常人更為流暢自然。

  這得益於谷歌兩年前推出的WaveNet深度神經網路,採用自然生成的方法,以少量的語料輔以強大的計算,生成原始語音,不僅更貼近真人,而且製作時長也從幾個月降低到幾百小時。

  除了語義理解、語音合成外,智能語音交互還包括「語音識別」。向文傑表示,在語音識別方面,國內前幾名的互聯網巨頭、創業公司水平差距都不大,而只有在極端場景下,極高的識別準確率才能創造價值。

   創業者還有機會嗎?

  蘋果Siri、微軟Cortana(小娜)、Google Assistant以及亞馬遜Alexa佔據全球四大主流語音助手席位,中國市場還有機會嗎?

  國內市場上的「玩家」大致可按公司體量分為三個梯隊:「BATJ」加上科大訊飛、小米是第一梯隊;思必馳、雲知聲、Rokid、出門問問等頭部企業處於第二梯隊;聲智科技、智能一點等更小的初創公司則是第三梯隊。

  對於巨頭們來說,平台戰略是他們的一貫打法。

  2017年7月5日,百度推出了對話式人工智慧系統DuerOS,希望做智能語音領域的「安卓」。基於DuerOS,百度推出了小度智能設備開放平台,為開發者提供包括硬體和軟體在內的一攬子解決方案。

  就在百度推出DuerOS同一天, 阿里 也推出其智能音箱產品「天貓精靈X1」。「天貓精靈X1」的背後,是阿里人工智慧實驗室自主研發的第一代人機交流系統AliGenie。

  去年6月, 騰訊 也推出了基於騰訊雲的小微智能服務開放平台。

  為搶灘物聯網入口,阿里和小米不惜大打價格戰。去年雙十一,阿里以99元的價格售出超過百萬台天貓精靈X1,小米也將補貼進行到底,其售價299元的小愛音箱,一直處於缺貨狀態。

  「當嘗鮮成本足夠低的時候,用戶購買體驗的意願還是非常強的。」向文傑認為,阿里和小米在搶佔山頭的同時,很大程度上教育了市場。

  在巨頭環伺的語音市場,創業者如何尋找到自己的破局點?

  想要打造智能語音領域的「蘋果」的Rokid追求極致的用戶體驗,涵蓋了更簡潔的喚醒詞、更快的反應時間、更有質感的外觀設計以及更廣的遠場識別距離。

  在Google提出wavenet模型后,國內創業公司也在追趕這一語音合成趨勢。據了解,今年下半年,Rokid和思必馳即有相應功能投入使用。

  同時,在向文傑看來,作為與巨頭不存在對抗關係的第三方,Rokid能夠獲得更多巨頭的開放介面。

  這也是智能語音玩家思必馳的邏輯。此外,思必馳CMO龍夢竹認為,相比其他創業公司,思必馳在智能音箱、機器人市場佔據的市場份額,使得其在洽談接入資源時更具議價能力。

  2014年調整戰略方向後,思必馳專註於2B的IOT技術賦能以及智能企業啟髮式對話交互,目前已與百度地圖、高德地圖、支付寶、微信、大眾點評、 攜程 、喜馬拉雅等技術服務商達成合作。

  「至於現在才起步的初創企業,只能在更垂直、更細分的領域尋找機會。」龍夢竹補充說。

  新京報記者 蔡浩爽

支持按個讚↓

我讚過了 繼續看文章!