0
| 本文作者: 嫣然 | 2017-11-29 11:53 |
雷鋒網(wǎng)按:亞馬遜的閃耀新星Alexa近日登錄印度,這是繼德國美國英國之后Alexa即將征戰(zhàn)的第四片土地。在此之前,Alexa 的支持語言只有英語和德語,相比之下,Google Assistant 已經(jīng)支持 5 種語言,蘋果 Siri 更是支持 24 種語言和 36 種方言。
原本在語言上就稍顯落后的Alexa,此舉可以說野心勃勃。根據(jù) 2001 年的統(tǒng)計,印度有 29 種語言的使用人口超過一百萬,有 122 種語言的使用人口超過一萬,除了英語和印地語兩種全國性的官方語言之外,印度憲法認定的、在各個邦具有官方地位的語言還有 22 種。對于 Alexa 這樣面向消費級用戶和大眾市場的語音交互產(chǎn)品來說,復(fù)雜的語言環(huán)境無疑是相當大的挑戰(zhàn)。顯然,Alexa在這里將直面它的終極挑戰(zhàn)。它會一鳴驚人,還是遭受重大打擊呢?
Factory Daily近日發(fā)表文章,深入闡述了Alexa登錄印度所面臨的困難,亞馬遜為此所付出的努力,以及各方人士對此的看法。雷鋒網(wǎng)在不改變原意的情況下,為您做如下編譯:

她現(xiàn)代化,會說流利的英語,能幫助您預(yù)訂出租車,找烹飪食譜,播放你最喜愛的音樂,并被她最喜愛的演員沙魯克汗(Shah Rukh Khan)所深深吸引。她是一位典型的印度女士,她可能回答你所有的問題。她最喜歡的女演員是Emily Stone和Rachel Weisz,最喜歡的冰淇淋味道是薄荷巧克力片。她是Alexa,出生在一個美國籍的亞馬遜家族,說著一口帶印度口音的英語。
她是被訓(xùn)練成這樣的。 Alexa是亞馬遜的語音助理,印度是它推出的第四個國家。亞馬遜有雄心把Alexa放入一切場景。進入你的手機。進入你的車。進入你整個家庭。甚至進入酒店和辦公室。
Alexa在美國、英國和德國取得了一些早期的成功。世界各地有幾十家公司把Alexa嵌入了它們的產(chǎn)品。在國際消費電子展上,福特、大眾和奧迪展示了將Alexa嵌入儀表板的汽車。

連接到互聯(lián)網(wǎng)后,Alexa會試圖回答你的問題,遵照你的命令。但印度將是Alexa的終極考驗。 “語音助手在單語或雙語國家運作良好。但印度是不同的?!盠attice Bridge Infotech(簡稱LBIT)的總經(jīng)理Mohan Ram說,他自2001年以來一直從事語音識別技術(shù)領(lǐng)域。
2001年剛開始的時候,Ram告訴投資者,他的公司將在五年內(nèi)解決卡納塔克邦的語言和方言問題。但是17年以來,他承認他只解決了80%的問題。他說:“每隔100公里語言就會變化,每30公里方言就會變化?!钡馊斯ぶ悄?、機器學(xué)習(xí)和深度學(xué)習(xí)將會很大程度上改善這些問題。亞馬遜正在以此為籌碼,試圖解決印度的復(fù)雜性。
早在亞馬遜在印度推出Alexa的一年多之前,它已經(jīng)開始了培訓(xùn),以滿足當?shù)氐男枨??!癆lexa了解口語詞匯及其背景。印度與其他單一語言國家不同的是,我們要使用大量專有名詞——可能是一個人名,一個地方,一個寶萊塢唱片的名稱,一個詞作者或一部電影?!?/strong>Puneesh Kumar說,他是 Alexa體驗與設(shè)備在印度的區(qū)域經(jīng)理。
Kumar自2010年5月以來一直在亞馬遜工作。最初是實習(xí)生,然后在亞馬遜中國擔(dān)任高級項目經(jīng)理,并在亞馬遜在中國市場推出期間工作。他最長的時間是作為亞馬遜全球銷售計劃的總經(jīng)理,工作了兩年半,一直到領(lǐng)導(dǎo)Alexa在印度的實踐之前。
“我們不得不跳出英語思維的框架之外去思考。 我們要訓(xùn)練Alexa了解泰米爾語,印地語,泰盧固語,旁遮普語,馬拉雅拉姆語中的專有名詞?!盞umar說,他現(xiàn)在在加羅爾工作。
這些問題對印度來說是獨一無二的,即使別的國家也有多種方言。例如,坐落在卡納塔克邦邊上的城市貝爾高姆,它從孔卡尼語、馬拉地語和卡納達語的混合中發(fā)展出了自己的語言。距離貝爾高姆386公里的烏杜皮,也是在卡納塔克邦,那里的人們講的語言是圖魯語,馬拉雅拉姆語和卡納達語的混合。
硅谷研究公司Constellation Research的首席分析師兼董事長Ray Wang表示:“鑒于印度人口眾多,在這個國家分不同洲推出產(chǎn)品可能更好?!?“亞馬遜在能力上仍然落后于谷歌,但正在快速趕上。(成功)所需要的正是很多用戶去測試和學(xué)習(xí)?!?/p>

Puneesh Kumar, Alexa體驗與設(shè)備在印度的區(qū)域經(jīng)理。
Alexa建立在人工智能和機器學(xué)習(xí)框架之上,可以在云端不斷學(xué)習(xí)。亞馬遜結(jié)合了云計算和人工智能的兩項開創(chuàng)性技術(shù),并以簡單易用的語音作為用戶界面入口。
Kumar說:“正是因為它機器學(xué)習(xí)的背景,因此每一句話都在幫助它學(xué)習(xí)。 Alexa基于自然語言理解(NLU),意味著基本上它能理解句子和上下文,并將其從文本轉(zhuǎn)換為語音。這些情況因國家而異。在美國和英國,當人們談?wù)搈arks時,他們是指劃痕。但在印度,marks通常是指成績和分數(shù)。
Alexa也理解印度遵循著以十萬和千萬為單位的數(shù)字系統(tǒng),而不是百萬和十億。 Alexa必須意識到這一點,Kumar說。它能識別UP(北方邦),MP(中央邦)和CM(首席部長)等縮寫詞。它也可以識別不同的PIN碼。它還囊括了北印度詞匯,如haldi,jeera和dhania,這些詞不是英語單詞,但是是常見的印度語單詞。
準確的說,Echo設(shè)備的用戶體驗(Echo能即時連接到Alexa播放音樂,獲取新聞和天氣等信息,并使用語音控制智能家居)仍尚在發(fā)展中。FactorDaily加羅爾辦公室對Echo詢問“誰是Anand Murali”,得到了一個不正確的答案,而理想情況下它應(yīng)該查詢上下文,確定我們想問的是誰。 Google語音查詢會在搜索結(jié)果的頂部顯示Anand的LinkedIn(領(lǐng)英)個人資料。
Shonali Muthalaly在《印度教徒報》中寫道,“這遠非完美。”“Alexa仍在了解印度的過程中,所以當我要求她推薦餐館、提供交通預(yù)測和路線推薦時,她回答的一團糟?!睋?jù)推測,隨著越來越多的印度人使用這個平臺,結(jié)果會變得更好。
培訓(xùn)Alexa不容易,Kumar承認。亞馬遜最初的語料集有限——大約有一萬個。這被稱為訓(xùn)練數(shù)據(jù)。Kumar不記得確切的數(shù)字了。然后有一種叫做測試數(shù)據(jù)的,它是無限的,是人類互動和萬維網(wǎng)的混合體。
Kumar認為,Alexa尚不完美,所以只邀請了少數(shù)人使用。(此前亞馬遜在印度當?shù)靥暨x了一批公司高管和商務(wù)人士作為天使用戶,將一部分 Echo 音箱贈送給他們試用。)隨著越來越多的人進入Echo設(shè)備,Alexa將學(xué)習(xí)更多?!澳菚r機器學(xué)習(xí)就大顯身手了,并且開始識別訓(xùn)練數(shù)據(jù)中不存在的新東西......隨著越來越多的人與設(shè)備交談,語言會擴展。事情現(xiàn)在還不是應(yīng)該有的樣子,隨著時間的推移會變得更好?!彼f。
有一種叫做DWC(需求加權(quán)覆蓋)的東西。是最受歡迎和最常說的詞語列表。為了識別這些詞語,Alexa尋找模式,聲音,音素,背景,然后把它們放在一起,看看人們說的話可能是什么。一旦發(fā)現(xiàn)不匹配,則跟蹤每個不匹配以改善體驗。
早期時,Alexa知道Amitabh Bachchan是一名演員,甚至可以獲取他的歌曲,但她會把Bachchan發(fā)音成Bakkan(遺漏了“chch”的發(fā)音)。隨著時間的推移它在學(xué)習(xí)。Kumar說,Alexa要學(xué)習(xí)的大部分經(jīng)驗是用她的方式讀出正確的方言和發(fā)音——不僅僅是英文,還有印度語和泰盧固語的流行詞匯。

Kumar說,如果Alexa能夠理解對面的那個人,相當于得到了圣杯(最高獎賞)。 “無論如何,我們都希望Alexa了解話語背后的意圖。我們根據(jù)意圖來看大部分話語?!崩?,播放歌曲,播放電影中的歌曲,播放帶有某歌詞的歌曲,或不使用播放這個詞,給我唱首歌,幫我緩解一下心情——它們可能最終都要求Alexa獲取相同的結(jié)果。Kumar說:“我們正嘗試繪制相關(guān)性?!?/p>
如果用戶在獲取結(jié)果后的幾秒鐘內(nèi)說“不”或改變詢問,機器學(xué)習(xí)算法就會明白Alexa沒有獲取正確意圖。即使這個輸入只是用于訓(xùn)練。
亞馬遜在訓(xùn)練Alexa時使用了機器學(xué)習(xí)和人工干預(yù)的混合,尤其是在同一個詞有多個發(fā)音的時候。Kumar說:“我們得到的回應(yīng)讓人很有信心,然后我們用一個非常熟悉這個詞的人做審查機制,以確保我們正確的理解了這些音素?!?/p>
但是不可能每次遇到這種詞都這么做。Alexa會提取前20或30個詞語進行這個過程,每當有一個這樣的詞語時,這個程序就會繼續(xù)進行,這時候這個詞語的表達水平已經(jīng)更高了。
不過,Kumar說,這位女士(指Alexa)會有一個自己的聲音,它不會隨著從南到北的印度而變化,雖然亞馬遜希望Alexa能夠理解不同的文化、口音和對著麥克風(fēng)說話的人的思維方式。 “我們看的是最終的綜合聲音。最終的聲音是對機器,音素,詞匯的調(diào)制,所有這些都以非常印度的聲音進行預(yù)先錄制,”Kumar說。
由于不可能錄下每個詞語,他們錄制了一組詞語創(chuàng)建了所謂的基本結(jié)構(gòu)。 “我們采用了一個人聲,然后把它與機器學(xué)習(xí)、語音和詞典這些結(jié)合起來。我們把這個聲音看作一個組合?!彼f。
另外,因為一位女士(上文提到的人聲的主人)不可能熟知所有的口音和語言,所以他們選擇了多個人來錄制。然而,在機器學(xué)習(xí)的幫助下,亞馬遜已經(jīng)成功地使Alexa的聲音變得一致,無論你在印度的什么地方使用。 Kumar說:“在印度說話的Alexa會有一個自己的人格。”
第一天,在亞馬遜完成語音助理Alexa在印度的全面推廣之前,Alexa有10800個精確的技能。當Alexa在美國推出時,它只有13種技能。技能是基于語音的應(yīng)用程序,如移動應(yīng)用程序,它讓用戶能使用語音命令來操作應(yīng)用程序。
亞馬遜的Alexa語音服務(wù)和技能主管Steve Rabuchin告訴Wired,該公司受到了“星際迷航”電腦的啟發(fā)——創(chuàng)建一個助手,讓用戶可以通過簡單的語音命令來控制周圍的一切。
亞馬遜已經(jīng)與印度的開發(fā)商合作,將流行的應(yīng)用程序與亞馬遜的語音助手整合在一起。對于旅行方面,有Ola,Goibibo,ixigo和Jet Airways。食物方面,有Faasos,Zomato,F(xiàn)reshmenu,Sanjeev Kapoor,達拉爾。音樂方面,有Saavn和Bollywood Hungama。運動方面,有ESPNCricinfo。新聞和教育方面有印度時報,NDTV,ABP Live,AajTak和Byju's。智能家居解決方案,他們擁有Syska和Silvan,UrbanClap和Housejoy則提供勤雜工服務(wù)。

Kumar說,將Alexa與應(yīng)用程序整合是很容易的。他說:“已經(jīng)有年僅10歲的孩子建立起一門技術(shù),還有年紀大又沒有任何技術(shù)知識的人,他們也能夠建立一門技術(shù)。
對于ixigo的首席執(zhí)行官兼聯(lián)合創(chuàng)始人Aloke Bajpai來說,Alexa是一個很好的傳播平臺。他說:“亞馬遜非常非常雄心勃勃,我們期望他們能夠在很短的時間內(nèi)達到幾百萬臺設(shè)備。
但Bajpai并沒有將ixigo局限在Alexa上——他正在建立自己的語音助理Tara.“Alexa的使用是有限的...你問一些東西,然后它反應(yīng)。它需要更積極主動,譬如如果一個長周末即將到來,它應(yīng)該能夠向你推薦一些東西,“Bajpai說,但是他同意,谷歌和亞馬遜把重心放在語音助手之后,情況正在發(fā)生變化。他說:“語音合成得到了改善......在我們正在使用他們的API的基礎(chǔ)上?!?/p>
在瘋狂學(xué)習(xí)的同時,也有人為干預(yù)來塑造Alexa的人格。Kumar作為發(fā)言人在一封后續(xù)電子郵件中表示:“我們通過賦予Alexa特性屬性和個人偏好來賦予她人格?!八龑ψ诮淌浅植豢芍摰模紊溪毩?,同時是科學(xué),技術(shù),創(chuàng)新,多樣性和社會進步的堅定支持者。”
Alexa可以成為女朋友還是忠誠的伴侶? Kumar說:“我們希望Alexa能夠提供語音服務(wù),成為陪伴者,并且可以在任何情況下你都可以與之交談。 “如果你說'我壓力很大',她會問你是否想聽一些冥想音樂?!?/p>
雷鋒網(wǎng)編譯 via Factory Daily
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。