1
| 本文作者: 恒亮 | 2016-11-21 22:38 |

11 月 21 日,在深圳會展中心舉辦的第十八屆中國國際高新技術成果交易會(高交會)進入了最后一天的議程,在四號館,計算機視覺公司曠視科技和智能語音識別公司思必馳聯合主辦了一場“讀臉對話”主題沙龍,在討論中,思必馳產品總監(jiān)張巖向公眾做了題為《物聯網時代下的語音交互》的分享。
隨著信息科技和移動互聯網的不斷發(fā)展,人類和計算機的交互方式也在不斷發(fā)生著變化。從最初的像 Dos 系統(tǒng)那樣的命令行交互,到蘋果和微軟系統(tǒng)那樣的窗口化顯示,以及現在的手機系統(tǒng) UI 設計,都是不同階段人類與計算機的進行信息交互的不同方式。在張巖看來,未來,隨著物聯網和智能化時代的到來,人類和計算機之間將產生一種全新的交互方式:那就是自然語音的交互,可以稱為“Voice UI”。
張巖將物聯網產品分成兩類:一類是只需要聯網的具備數據交換功能的簡單產品,另一類是需要跟人交互的具有一定智能的復雜產品。他認為,就像手機占領現代人的生活那樣,這兩類物聯網產品也將占領未來人類的生活。
毋庸置疑,亞馬遜的 Echo 智能音箱是語音識別落地硬件設備最好的案例之一。憑借精準的自然語音交互,背后豐富的內容資源支持,亞馬遜 Echo 不但蟬聯了歐美市場同類產品的銷量冠軍,更是成為了目前業(yè)界智能音箱類產品的設計標桿。這里面除了反映出亞馬遜公司自身強勁的產品研發(fā)和整合能力之外,實際上也代表著業(yè)界和市場對于語音交互方式的認可。
張巖表示,截止目前,國內之所以還沒有出現一款真正意義上的國產版的 Echo,主要原因是受到了四個方面的約束:
基于自然語言的語音識別和語義分析技術約束;
背后強大的資源整合能力的限制;
缺少平臺化的產品的 API 開放;
欠缺合理的價格和市場定位。
這幾點正是語音識別廠商需要為硬件廠商的難題。
據張巖介紹,思必馳目前主要有兩大產品線:一個是基于自然對話的語音識別和語義分析的 AIOS (Artificial Intelligence Operating System)人機對話操作系統(tǒng),另一個是基于音頻芯片和麥克風陣列的 AICHIP (Artificial Intelligence Chip)智能語音芯片模組。
張巖表示,AIOS 的設計初衷是為了彌補傳統(tǒng)的主流操作系統(tǒng)(安卓、QNX 和 Linux等)在自然語言交互方面的缺失,實現機制就是在操作系統(tǒng)本身的基礎上實現語音驅動下的一些列系統(tǒng)功能的對接,比如檢測 到用戶的指令是讓電腦打開攝像頭,那么 AIOS 就需要調用操作系統(tǒng)本身的接口實現相關操作。目前,AIOS 主要是以 License 授權的方式與硬件廠商形成合作,主要的廠商有高德導航和阿里 YunOS 等。
而 AICHIP 作為一個硬件方案,是思必馳和 Realtek 、 Marvell 等在內的多家半導體廠商共同合作的產品。將思必馳的語音技術和半導體廠商的音頻處理、無線通訊等組件結合,形成了一套具有高度適配性和設計自由度的半導體語音模組,例如思必馳出品的環(huán)形 6+1 麥克風場景陣列和 4 麥克風線性陣列等,這在硬件上大大縮短了廠商的研發(fā)周期,目前有多家國內的機器人廠商都采用了思必馳的解決方案。
張巖表示,物聯網的范疇很大,幾乎可以說包羅萬象,但是作為一家企業(yè),就像一個人一樣,其專注的精力是有限的。因此在當前情況下,思必馳主要提供車載、家居和機器人等三個垂直領域的軟、硬件解決方案,其中車載領域更關注安全性,家居領域更關注怎么做能讓用戶的生活更便捷,而機器人領域則主要強調交流和溝通。
不過,目前有很多語音識別方案用戶體驗并不理想。例如目前大部分的語音交互模式,都需要先說一聲“你好,XX系統(tǒng)”來激活語音識別程序,然后才能發(fā)出指令,進入語音交互狀態(tài)。但其實更合理的模式應該是,用戶說“你好,XX系統(tǒng),今天的天氣如何”不需要停頓,然后系統(tǒng)直接就能給出當日的天氣狀況,這才是連貫合理的交互。在張巖看來,語音識別公司在突破技術瓶頸的同時,更需要注重體驗上的進步。
國內做語音識別技術的公司并不少,科大訊飛就是其中之一,有數據顯示其已占有中文語音技術市場70%以上市場份額,那思必馳如何立足市場呢?
張巖坦言:“我們承認訊飛還是這個行業(yè)的No. 1,可調用的資源比我們多。不過也應該注意到:我們兩家公司的側重點是不同的,而且一個平臺想解決這個行業(yè)的全部問題,這一點很難。我們不會跟科大訊飛比我們的短板,我們還是深耕垂直場景的語音交互。”
張巖向雷鋒網透露,除了車載、家居和機器人領域之外,思必馳未來計劃構建一個基于語音交互的定制平臺,這個平臺將可以對接這三個領域之外的其他各種物聯網的智能硬件廠商,通過集成語音識別和語義分析技術,用戶將可以在這個平臺上自由定制各種語音方面的功能。
最后,張巖用麥克羅漢(Marshall McLuhan)的媒介論來解讀物聯網。他說:“就好像印刷品是人眼的延伸,廣播是人耳的延伸一樣,物聯網同樣也是一種延伸。未來,你隨便問機器一句話,就像跟朋友交談那樣,機器通過聯網立刻就能向你反饋需要的結果,這其實就是一種大腦的延伸。”
雷峰網原創(chuàng)文章,未經授權禁止轉載。詳情見轉載須知。