久久精品无码视频|精产国品色情一二三区在线观看|国产性爱自拍视频|亚洲av韩国av|日韩美女一级AAA大片|少妇无码激情诱惑|日韩AV在线播放有码|一级黄片一级黄片|av上一页亲亲久草av|aaa在线观看国产做爱

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能學(xué)術(shù) 正文
發(fā)私信給camel
發(fā)送

0

數(shù)據(jù)之戰(zhàn):NLP邁向?qū)嵱秒A段的核心所在

本文作者: camel 2020-03-11 15:03
導(dǎo)語:算法是公開的,落地的差異更多來自于訓(xùn)練數(shù)據(jù)是否精準(zhǔn)!

雷鋒網(wǎng)AI科技評(píng)論按:隨著人工智能技術(shù)越來越多的應(yīng)用到我們的工作和日常生活中,人們對與計(jì)算機(jī)交互提出了更高的要求。人們顯然已不滿足于只是簡單的人機(jī)對話,而是暢想可以達(dá)到人與人交流那樣的酣暢淋漓,就像科幻片像人們所展現(xiàn)的那樣。

但是人類相互之間的交流不是文字或文字堆砌的句子所能表達(dá)的,而是一個(gè)微妙且復(fù)雜的過程。生活中,我們可以大量的使用語氣詞來加強(qiáng)你的語氣,表達(dá)你的愉悅、惱怒或者無聊。而要讓計(jì)算機(jī)真正理解人類日常交流用語,單單了解單詞的定義是遠(yuǎn)遠(yuǎn)不夠的,計(jì)算機(jī)還要理解人類的七情六欲,甚至潛臺(tái)詞。

NLP實(shí)際上就是在極其豐富的人類語言之中和機(jī)器語言之間搭建無障礙溝通的橋梁。在新的 AI 技術(shù)發(fā)展下,越來越需要巨大的數(shù)據(jù)以支撐不同的場景。

AI大牛沈向洋最近就職清華演講中提到:在任何時(shí)候,構(gòu)建AI都離不開數(shù)據(jù),如何設(shè)計(jì)和構(gòu)建負(fù)責(zé)任的AI,數(shù)據(jù)的來源至關(guān)重要。

當(dāng)下NLP的大部分應(yīng)用場景都缺少足夠規(guī)模的標(biāo)注數(shù)據(jù),并且標(biāo)注成本也非常高。因此準(zhǔn)確率通常也不會(huì)很理想。

那么如何才能以低成本、時(shí)效快的高質(zhì)量數(shù)據(jù)快速上手 ASR/TTS/NLP 引擎,步入NLP實(shí)用階段呢?

針對這一問題,雷鋒網(wǎng)AI 科技評(píng)論有幸與澳鵬(Appen)中國區(qū)客戶服務(wù)副總裁段楊Danny Duan 進(jìn)行了一場深度對話。Danny 指出 “成品數(shù)據(jù)庫不失為一個(gè)明智的選擇。”

以下為完整對話內(nèi)容——
 

數(shù)據(jù)之戰(zhàn):NLP邁向?qū)嵱秒A段的核心所在

段楊Danny Duan,澳鵬(Appen)中國區(qū)客戶服務(wù)副總裁。曾歷任文思海輝總監(jiān),助理副總裁,AI數(shù)據(jù)服務(wù)部門負(fù)責(zé)人。


1.

一個(gè)成功NLP引擎的關(guān)鍵因素是算法和高質(zhì)量的數(shù)據(jù),算法往往是公開的,差異化更多地來自于精準(zhǔn)大量的訓(xùn)練數(shù)據(jù),定制的數(shù)據(jù)采集標(biāo)注時(shí)間長,成本高。
 
Q:目前在人機(jī)交互的人工智能中,聲稱幾乎每個(gè)決方案都利用了NLP,怎么理解這句話的涵義?

Danny:人機(jī)交互有幾個(gè)步驟,首先你要讓機(jī)器聽懂你說的是什么,比如智能音箱或者語音助手就是這樣一個(gè)很典型的情況。你對語音助手說了一句話,它能在計(jì)算機(jī)內(nèi)部轉(zhuǎn)換為相對應(yīng)的文本,因?yàn)橛?jì)算機(jī)處理文本信息比較容易,這就是語音識(shí)別技術(shù)。

轉(zhuǎn)成文本以后,重點(diǎn)就是機(jī)器要理解你想要干什么,才能知道該如何去應(yīng)對。這就是自然語言理解或者或者叫NLP的任務(wù)。

數(shù)據(jù)之戰(zhàn):NLP邁向?qū)嵱秒A段的核心所在

比如我對著一個(gè)智能音箱說,“幫我打開空調(diào)?!?  首先,語音識(shí)別技術(shù)把我說的話轉(zhuǎn)換成文字。然后通過分析文字知道我的目的是要打開空調(diào),這后面一步就是自然語言理解(NLP)的任務(wù)。它理解了,知道我要做的是打開空調(diào),于是就操縱空調(diào)上的接收器去打開,包括進(jìn)一步設(shè)置到某一個(gè)溫度?,F(xiàn)在基本上各種自然語言理解引擎都是把各種各樣的輸入信息轉(zhuǎn)換成文本來進(jìn)行處理、分析、切割,進(jìn)行語意的提取,包括情緒的提取??梢哉f這是真正實(shí)現(xiàn)人機(jī)交互的基礎(chǔ)。

當(dāng)然整個(gè)交互的鏈條上還有一步,就是機(jī)器可能會(huì)與你對話,這里用到的就是語音合成(TTS)的技術(shù),相當(dāng)于機(jī)器發(fā)聲。還有一個(gè)分支是跟語音交互相關(guān)的----語音翻譯,這里面就需要再加上一個(gè)機(jī)器翻譯的環(huán)節(jié),把人說的話轉(zhuǎn)成文本之后再轉(zhuǎn)化成另外一種目標(biāo)語言,再去進(jìn)行NLP的處理和人機(jī)對話。

Q:如何來定義一個(gè)成功的NLP呢?

Danny:成功的NLP其實(shí)從最終用戶角度來講很簡單,就是能夠像真人一樣知道我要說什么,要做什么,能夠做出正確的動(dòng)作或者給出正確的反應(yīng)。所謂人工智能,它的參照物其實(shí)就是人,這里主要指人機(jī)交互這個(gè)限定的領(lǐng)域。而像AlphaGo下圍棋這種人工智能,與我們所說的人機(jī)交互是兩個(gè)不同的方向。人機(jī)交互就是以人的行為作為標(biāo)桿,Siri的語音助手或者百度音箱,對話的時(shí)候,如果我不看見你,我是不是能夠感覺到你是一個(gè)機(jī)器,還是說我根本就分辨不出來你是機(jī)器還是真人。如果做到分辨不出來,那就說明這個(gè)NLP已經(jīng)做到非常成功了,以假亂真了,當(dāng)然現(xiàn)在的技術(shù)水平還相距甚遠(yuǎn)。

Q:NLP的難點(diǎn)主要體現(xiàn)在轉(zhuǎn)換的過程,也就是從語音和圖像轉(zhuǎn)換成文字這一部分?

Danny:其實(shí)真正的難點(diǎn)不在于轉(zhuǎn)換的過程,而在于分析的過程。因?yàn)榉治鑫谋?,并不是說簡單地把一些詞或者句子的內(nèi)容識(shí)別出來,因?yàn)槟闶且R(shí)別意圖的。而最麻煩的是,人的意圖是發(fā)散的。我說“把空調(diào)開到26度”,這是一個(gè)確定的、有限的集合,作為智能家電也好或者智能音箱也好,相對比較容易應(yīng)對。但更多的情況下,我說的話是模糊的,有多種可能的含義,而且往往是有上下文的,附加背景知識(shí)的,這本身就是一個(gè)開放的集合,這種情景下NLP引擎能夠做到準(zhǔn)確分析正確應(yīng)對就難度非常大了。

基于以上的原因,所以各個(gè)廠家在做NLP引擎或者應(yīng)用的時(shí)候,他們往往都會(huì)事先圈定好一些應(yīng)用場景,比如一些最常見的設(shè)鬧鐘、設(shè)日歷、客服對常見問題的回答,或者一些常見的搜索內(nèi)容,點(diǎn)播視頻或者找餐館這些。這樣在相對有限的一些場景里面,它才可以對常見的意圖進(jìn)行理解分析和應(yīng)對。對引擎訓(xùn)練范圍之外的內(nèi)容,它就會(huì)說對不起,我沒聽懂你說什么。

這也是為什么你會(huì)發(fā)現(xiàn)跟語音助手對話的時(shí)候,它經(jīng)常會(huì)說我沒聽懂,然后把你說的話轉(zhuǎn)成文字,給你一個(gè)相當(dāng)于網(wǎng)上搜索的鏈接,事實(shí)上這就是因?yàn)樗澈蟮腘LP引擎沒有辦法處理這一類的內(nèi)容。
 
Q:它沒有辦法甄別像語氣這類吧,因?yàn)椴煌恼Z氣,從情緒上面可能意思會(huì)截然相反,實(shí)際上也就是無法解鎖情緒分析?

Danny:語氣是情感分析的一部分,這是很重要的一個(gè)方面,也可以說是一個(gè)難點(diǎn)。如果你試著用不同的語氣跟一個(gè)語音助手說話,比如用一個(gè)反問句,它很可能會(huì)給你一個(gè)錯(cuò)誤的對答。

目前也不是說沒辦法。一方面,需要用大量的數(shù)據(jù)進(jìn)行訓(xùn)練來覆蓋各種各樣的場景,包括類似的內(nèi)容不同的語氣,不同的上下文所代表的不同含義;另一方面,做任何事情都有不同階段,首先要把最基本的階段夯實(shí),然后才能再逐步疊加各種復(fù)雜的維度。比如正常對話的語氣,正常語速,沒有特別明顯的環(huán)境噪音,也沒有很多人同時(shí)在說話,也都是非常普通的內(nèi)容,這種最基礎(chǔ)的、最常規(guī)的場景先要先訓(xùn)練好,才能逐步追求更高復(fù)雜度的。
 
Q:目前NLP基本上還是處在一個(gè)比較常規(guī)和基礎(chǔ)的上面,遠(yuǎn)沒達(dá)到對復(fù)雜維度的處理層面?

Danny:可以這樣說,就是在常規(guī)的程度上,覺得可以用,但離實(shí)際應(yīng)用場景中的“好用”相對還比較遠(yuǎn)。但是各廠家的做法不一樣。對百度、微軟、Google和Apple這種頭部大廠商來說,他們更多著眼于通用場景,而其他一些廠商則主要聚焦某些特定場景,比如在開車的時(shí)候人機(jī)交互的場景;在醫(yī)院里跟醫(yī)生、病人對話的場景;或者客服的場景,通過縮減它的使用范圍,在有限的投入之內(nèi)用有限的數(shù)據(jù),這樣比較容易訓(xùn)練出一個(gè)可用的NLP引擎。

因?yàn)樽匀徽Z言處理不僅僅是機(jī)械的去識(shí)別聲波,它實(shí)際上是非常模糊的去識(shí)別、去判斷人跟你交流的意圖,這個(gè)復(fù)雜度確實(shí)非常高,一旦出錯(cuò),很可能理解成相反的東西,甚至造成災(zāi)難性的后果。
 
Q:算法對NLP是第一位的嗎?

Danny:做任何人工智能的技術(shù)或者產(chǎn)品的研發(fā),其實(shí)都需要三樣?xùn)|西,算法、算力和數(shù)據(jù)。算力本身就是一個(gè)支持性的東西。對于NLP而言,算法的理論突破是隔一段時(shí)間才會(huì)出現(xiàn),而且現(xiàn)在行業(yè)內(nèi)算法的研究普遍是開源性質(zhì)的,各家的區(qū)別不大。所以真正核心的是數(shù)據(jù)。

數(shù)據(jù)之戰(zhàn):NLP邁向?qū)嵱秒A段的核心所在

而數(shù)據(jù)本身是千變?nèi)f化的。比如把NLP和語音識(shí)別相對比,關(guān)于中文的語音識(shí)別,中國字的量,包括各種各樣的口音,這些都是有限的。但是說話的內(nèi)容和所表達(dá)的意圖卻是無限的,而且會(huì)有層出不窮的新內(nèi)容出現(xiàn)。比如像新冠肺炎這種,如果引擎到今年不更新,它可能就識(shí)別不了。因此這些AI公司,就需要大量的數(shù)據(jù)去訓(xùn)練,并且持續(xù)訓(xùn)練他們的模型。


2.

數(shù)據(jù)庫的優(yōu)點(diǎn)很明顯:第一,成本低;第二,時(shí)效快。成品數(shù)據(jù)庫可極大提升以機(jī)器學(xué)習(xí)作為核心技術(shù)的創(chuàng)業(yè)公司的競爭力。

Q:現(xiàn)在一些廠家如澳鵬都提供一些成品數(shù)據(jù)庫,怎么看待數(shù)據(jù)庫對NLP引擎的作用?

Danny:數(shù)據(jù)有不同的來源,你可以花錢去采集,比如花錢請一個(gè)人錄一小時(shí)的音,也可以找一些公開的數(shù)據(jù),比如演講視頻或者是有聲讀物,網(wǎng)站上的文字圖片等等。還有像語音助手、智能音箱、語音輸入法這些APP,如果經(jīng)過用戶的授權(quán),在你用這些APP時(shí)就已經(jīng)把真實(shí)的用戶數(shù)據(jù)提供給開發(fā)APP的廠商了。

但這些都各有優(yōu)缺點(diǎn),用戶數(shù)據(jù)是免費(fèi)的但不可控。如果你需要一些特定的數(shù)據(jù),你就有可能找不到你需要的數(shù)據(jù)。當(dāng)然你也可以花錢去定向采集,但錢花多了能否承受,如果去找公開的數(shù)據(jù),能找到多少是多少,又不具有系統(tǒng)性和針對性。

數(shù)據(jù)庫有什么存在的價(jià)值呢?第一,它是現(xiàn)成的,拿來就能用,而如果采集一個(gè)一千人說話的數(shù)據(jù)再進(jìn)行標(biāo)注,你可能需要兩個(gè)月到三個(gè)月,在當(dāng)今的互聯(lián)網(wǎng)時(shí)代,一個(gè)產(chǎn)品周期都過去了。第二,數(shù)據(jù)庫成本低,因?yàn)檫@不是為某一個(gè)人的特定需求去定向采集的,做好了可以反復(fù)的賣,每次賣的時(shí)候,價(jià)格就可放低,在資金有限的情況下是非常重要的因素。

但是它不好的地方呢?它已經(jīng)是現(xiàn)成的,所以不能改,它不是針對你的某一個(gè)具體的應(yīng)用而特意優(yōu)化的,所以數(shù)據(jù)庫是有很確定的使用場景,比如開發(fā)一個(gè)自然語言理解的引擎,或者語音識(shí)別的引擎,在早期階段用數(shù)據(jù)庫是一個(gè)非常好的方式,但是到后期針對你的應(yīng)用場景再調(diào)試的時(shí)候就需要去補(bǔ)充其他定制的數(shù)據(jù)。

所以一直以來很多做人工智能的企業(yè),都非常愿意去買數(shù)據(jù)庫。他們開發(fā)一個(gè)早期的引擎,就是希望以低成本和很短的時(shí)間快速上手進(jìn)入市場。這對當(dāng)下中國市場來說尤為重要,因?yàn)橹袊袌龅牡俣缺葰W美要快的多,可以說時(shí)間就是生命。

所以說在國內(nèi),像澳鵬這種成品數(shù)據(jù)庫,拿來就能用的,確實(shí)非常受歡迎。


3.

成品數(shù)據(jù)庫不僅對初創(chuàng)公司尤為重要,像Google、Facebook等這樣的巨頭對其需求也始終很旺盛。
 
Q:數(shù)據(jù)庫對一些創(chuàng)業(yè)型公司非常適用,但對Google等這樣的頭部廠商呢?

Danny:事實(shí)上,這些大企業(yè)他們的需求可能還會(huì)更多。一方面他們會(huì)把同樣的引擎推向不同的應(yīng)用場景,另一方面會(huì)推向不同國家的市場, 這樣就會(huì)不斷地重復(fù)從基礎(chǔ)到定向開發(fā)的循環(huán)。

數(shù)據(jù)之戰(zhàn):NLP邁向?qū)嵱秒A段的核心所在


比如去年的一個(gè)美國英語雙人對話的數(shù)據(jù)庫,中國的客戶和美國的客戶都有大量需求,絕大部分還都是很有名的大公司,為什么呢?因?yàn)樗麄冞M(jìn)入到了一個(gè)新的階段,比如單人說話的識(shí)別引擎差不多了,要拓展到能夠識(shí)別兩個(gè)人對話,多人對話,甚至多人開會(huì),一個(gè)人說話這樣的語音素材顯然不夠了,而是需要雙人對話的語音素材,那么就相當(dāng)于從一個(gè)較低的起點(diǎn)再開始,這正是數(shù)據(jù)庫最適用的地方。

而另一個(gè)非常明顯的趨勢是目前中國這些領(lǐng)先的企業(yè)在拓展海外市場時(shí),對中文以外的海外語言和外國人圖像的數(shù)據(jù)庫的需求也越來越旺盛。
 
Q:成品數(shù)據(jù)庫里面都是一些標(biāo)注好的數(shù)據(jù)嗎,還是已經(jīng)訓(xùn)練好的數(shù)據(jù)?

Danny:數(shù)據(jù)又可以分為訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù),數(shù)據(jù)庫都屬于訓(xùn)練數(shù)據(jù)。比如一個(gè)西班牙語500小時(shí)的語音識(shí)別數(shù)據(jù)庫,它最主體的內(nèi)容就是500小時(shí)的可能是500個(gè)人或者800個(gè)人每個(gè)人說很多句話的錄音音頻。但是光有這些錄音往往還是不夠的,還要對這些數(shù)據(jù)進(jìn)行一些加工,比如說要做轉(zhuǎn)寫,提供相對應(yīng)的文字文本,要讓計(jì)算機(jī)知道每一條音頻文件里面的波形圖對應(yīng)的是什么文本內(nèi)容,這樣才能進(jìn)行引擎訓(xùn)練。

做語音識(shí)別引擎的訓(xùn)練,比如一條音頻10秒鐘長,不僅要識(shí)別出來說的話,凡是這一段音頻里面出現(xiàn)的聲音都要能夠辨別,比如開門的聲音,打噴嚏的聲音,小孩在哭的聲音,放音樂的聲音,或者旁邊有汽車經(jīng)過的聲音,都要能夠識(shí)別出來這是有用的聲音內(nèi)容還是無用的干擾聲,所以語音轉(zhuǎn)寫它還包括區(qū)分各種各樣類型的聲音。

還有一些相對比較復(fù)雜的處理,比如它還會(huì)包括時(shí)間戳,尤其是在雙人或者多人對話的情況下,每個(gè)人說話的起始位置和結(jié)束位置,包括說話人的區(qū)分。很多時(shí)候還會(huì)要附帶相應(yīng)的發(fā)音詞典。整個(gè)語音數(shù)據(jù)庫,比如這500小時(shí)的音頻里面可能出現(xiàn)了3700個(gè)不同的單詞,每一個(gè)單詞它按照語言學(xué)領(lǐng)域標(biāo)準(zhǔn)的音標(biāo)表,都要把出現(xiàn)過的發(fā)音給標(biāo)出來。

數(shù)據(jù)之戰(zhàn):NLP邁向?qū)嵱秒A段的核心所在

一般這樣就算是一個(gè)相對完整的語音數(shù)據(jù)庫,把這樣一套基本素材提供給客戶,讓他將這個(gè)數(shù)據(jù)集灌到模型里面去訓(xùn)練,參照對應(yīng)的文本,時(shí)間戳,發(fā)音詞典,就可以做出有一定識(shí)別能力的一個(gè)引擎。而發(fā)音詞典又可以獨(dú)立出來,因?yàn)閱卧~的發(fā)音是比較固定的。所以澳鵬又有很多專門的發(fā)音詞典庫,近百種語言,每個(gè)語言少則幾千條詞條,多則幾十萬條詞條。

Q:目前國內(nèi)這些NLP在海外覆蓋的多,還是中文的多?

Danny:當(dāng)然國內(nèi)肯定都是立足于中文普通話和方言市場,但是國內(nèi)市場現(xiàn)在已經(jīng)競爭白日化了,國外這些行業(yè)里的巨頭也在試圖分一杯羹,因此國內(nèi)的頭部企業(yè)也要尋求增長點(diǎn),越來越多的是把目光投向海外市場上。比如像阿里、華為、OV、小米、科大訊飛,字節(jié)跳動(dòng)這些公司這兩年海外拓展力度都很大。

可以說,大家眼光一邊盯著海外市場布局,一邊繼續(xù)在國內(nèi)市場深耕以堅(jiān)守自己的大本營。

4.

成本低、時(shí)效快的成品數(shù)據(jù)庫對ASR/TTS/NLP引擎開發(fā)事半功倍。
 
Q:ASR/TTS 在難度上有差別么?為什么說更適合用數(shù)據(jù)庫?

Danny:其實(shí)它們是不同的應(yīng)用類型,ASR就是一個(gè)語音識(shí)別。通俗說,就是把人說的內(nèi)容轉(zhuǎn)換成對應(yīng)的文字。比如微信語音可以直接轉(zhuǎn)換成文字,這就是一個(gè)直觀的ASR應(yīng)用。TTS(Text  to   Speech),就是文本到語音,在業(yè)界的一個(gè)說法就是合成語音,也就是讓機(jī)器說話。TTS實(shí)際上它是反過來的,先給機(jī)器提供文本,機(jī)器對照著這個(gè)文本,相當(dāng)于念稿子一樣的,機(jī)器能夠發(fā)出對應(yīng)的音來,當(dāng)然TTS合成語音的做法又跟語音識(shí)別的做法不太一樣,不僅訓(xùn)練方式不一樣,而且它所需要的數(shù)據(jù)也不一樣。

相對而言,TTS的技術(shù)是比較容易的,而且也是目前最成熟的。如果從頭去采集做TTS引擎的數(shù)據(jù),即使只是10個(gè)小時(shí)的音頻數(shù)據(jù),再加上韻律標(biāo)注和發(fā)音詞典的制作,兩三個(gè)月都不一定做得完,成本會(huì)相當(dāng)高,這還只是數(shù)據(jù)準(zhǔn)備的階段。如果是采購成品數(shù)據(jù)庫,拿到數(shù)據(jù)以后兩個(gè)星期就可以完成所有數(shù)據(jù)準(zhǔn)備和引擎開發(fā)的過程,做出一個(gè)可用的TTS引擎來,這就是數(shù)據(jù)庫的好處。

再比如一個(gè)500小時(shí)的西班牙語的ASR語言數(shù)據(jù)集,如果全部從頭做,跟買數(shù)據(jù)庫相比成本上至少要差到一倍以上,時(shí)間上來講連音頻的采集帶加工,附加對應(yīng)文字的轉(zhuǎn)寫和發(fā)音詞典,最少需要兩至三個(gè)月。但如果是購買數(shù)據(jù)庫,今天簽合同,明天就可以傳過去了。
 
Q:后續(xù)是否需要提供更適合需求為具體場景而定制的數(shù)據(jù)來替代成品數(shù)據(jù)庫?

Danny:不完全是這樣,市場上一直既有成品數(shù)據(jù)庫的大量需求,也有大量需求需要定制,二者并不矛盾。任何場景都需要從基礎(chǔ)起步,而這個(gè)階段就是成品數(shù)據(jù)庫最能發(fā)揮優(yōu)勢的階段。以前人工智能技術(shù)開發(fā)所關(guān)注的場景比較少,對數(shù)據(jù)庫需求的種類也少,隨著場景的多元化,數(shù)據(jù)庫的需求也隨之增大,只是對數(shù)據(jù)內(nèi)容和精度的要求持續(xù)在變化。我們的判斷就是某一類需求僅僅是一個(gè)一次性的需求,還是說可能會(huì)有一些普遍的需求,對于可能會(huì)產(chǎn)生重復(fù)需求的,我們就可以把它制作成一個(gè)數(shù)據(jù)庫。比如嬰幼兒啼哭的數(shù)據(jù),很可能做智能家居的廠家在產(chǎn)品研發(fā)的某一個(gè)階段就會(huì)用到,我們認(rèn)為就值得去做成一個(gè)數(shù)據(jù)庫。

Q:最后,澳鵬目前也在做成品數(shù)據(jù)庫,你能介紹一下你們產(chǎn)品的特色?

Danny: 我們根據(jù)市場上頭部公司和創(chuàng)業(yè)公司的需求趨勢,及20多年行業(yè)經(jīng)驗(yàn)的累積,可以為我們的客戶提供豐富的成品數(shù)據(jù)庫來加快其AI產(chǎn)品的開發(fā)及迭代 。

數(shù)據(jù)之戰(zhàn):NLP邁向?qū)嵱秒A段的核心所在

 
* 語音識(shí)別庫(ASR)64種語言, 21,000小時(shí)
* 合成語音庫(TTS)3種語言4種音色
* 發(fā)音詞典98種語言,460萬詞條
* 詞性詞典21種語言,190萬詞條
* 命名實(shí)體庫(NER)8種語言
* 詞形分析器3種語言
* 黑人面部圖片1000人13萬張
* 中國人帶口罩面部圖片1000人7000張
* OCR圖片泰語、芬蘭語、中文各5000張
* 嬰兒啼哭音頻數(shù)據(jù)300人300分鐘
* 家貓表情動(dòng)作視頻1000只

除了這里列出的數(shù)據(jù)庫以外,我們還在持續(xù)制作新的數(shù)據(jù)庫來滿足市場需求,也非常歡迎戰(zhàn)斗在AI技術(shù)一線的同行們向我們提出數(shù)據(jù)庫的期望。

雷鋒網(wǎng)AI 科技評(píng)論注:欲了解澳鵬在成品數(shù)據(jù)庫方面的工作,可以訪問此鏈接, https://www.appen.com.cn/off-the-shelf-linguistic-resources/


雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

數(shù)據(jù)之戰(zhàn):NLP邁向?qū)嵱秒A段的核心所在

分享:
相關(guān)文章
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡介
為了您的賬戶安全,請驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說