數(shù)據(jù)之戰(zhàn)：NLP邁向?qū)嵱秒A段的核心所在

本文作者： camel

2020-03-11 15:03

導(dǎo)語：算法是公開的，落地的差異更多來自于訓(xùn)練數(shù)據(jù)是否精準(zhǔn)！

雷鋒網(wǎng)AI科技評(píng)論按：隨著人工智能技術(shù)越來越多的應(yīng)用到我們的工作和日常生活中，人們對與計(jì)算機(jī)交互提出了更高的要求。人們顯然已不滿足于只是簡單的人機(jī)對話，而是暢想可以達(dá)到人與人交流那樣的酣暢淋漓，就像科幻片像人們所展現(xiàn)的那樣。

但是人類相互之間的交流不是文字或文字堆砌的句子所能表達(dá)的，而是一個(gè)微妙且復(fù)雜的過程。生活中，我們可以大量的使用語氣詞來加強(qiáng)你的語氣，表達(dá)你的愉悅、惱怒或者無聊。而要讓計(jì)算機(jī)真正理解人類日常交流用語，單單了解單詞的定義是遠(yuǎn)遠(yuǎn)不夠的，計(jì)算機(jī)還要理解人類的七情六欲，甚至潛臺(tái)詞。

NLP實(shí)際上就是在極其豐富的人類語言之中和機(jī)器語言之間搭建無障礙溝通的橋梁。在新的 AI 技術(shù)發(fā)展下，越來越需要巨大的數(shù)據(jù)以支撐不同的場景。

AI大牛沈向洋最近就職清華演講中提到：在任何時(shí)候，構(gòu)建AI都離不開數(shù)據(jù)，如何設(shè)計(jì)和構(gòu)建負(fù)責(zé)任的AI，數(shù)據(jù)的來源至關(guān)重要。

當(dāng)下NLP的大部分應(yīng)用場景都缺少足夠規(guī)模的標(biāo)注數(shù)據(jù)，并且標(biāo)注成本也非常高。因此準(zhǔn)確率通常也不會(huì)很理想。

那么如何才能以低成本、時(shí)效快的高質(zhì)量數(shù)據(jù)快速上手 ASR/TTS/NLP 引擎，步入NLP實(shí)用階段呢？

針對這一問題，雷鋒網(wǎng)AI 科技評(píng)論有幸與澳鵬（Appen）中國區(qū)客戶服務(wù)副總裁段楊Danny Duan 進(jìn)行了一場深度對話。Danny 指出 “成品數(shù)據(jù)庫不失為一個(gè)明智的選擇。”

以下為完整對話內(nèi)容——

段楊Danny Duan，澳鵬（Appen）中國區(qū)客戶服務(wù)副總裁。曾歷任文思海輝總監(jiān)，助理副總裁，AI數(shù)據(jù)服務(wù)部門負(fù)責(zé)人。

1.

一個(gè)成功NLP引擎的關(guān)鍵因素是算法和高質(zhì)量的數(shù)據(jù)，算法往往是公開的，差異化更多地來自于精準(zhǔn)大量的訓(xùn)練數(shù)據(jù)，定制的數(shù)據(jù)采集標(biāo)注時(shí)間長，成本高。

Q：目前在人機(jī)交互的人工智能中，聲稱幾乎每個(gè)決方案都利用了NLP，怎么理解這句話的涵義？

Danny：人機(jī)交互有幾個(gè)步驟，首先你要讓機(jī)器聽懂你說的是什么，比如智能音箱或者語音助手就是這樣一個(gè)很典型的情況。你對語音助手說了一句話，它能在計(jì)算機(jī)內(nèi)部轉(zhuǎn)換為相對應(yīng)的文本，因?yàn)橛?jì)算機(jī)處理文本信息比較容易，這就是語音識(shí)別技術(shù)。

轉(zhuǎn)成文本以后，重點(diǎn)就是機(jī)器要理解你想要干什么，才能知道該如何去應(yīng)對。這就是自然語言理解或者或者叫NLP的任務(wù)。

數(shù)據(jù)之戰(zhàn)：NLP邁向?qū)嵱秒A段的核心所在

比如我對著一個(gè)智能音箱說，“幫我打開空調(diào)?！? 首先，語音識(shí)別技術(shù)把我說的話轉(zhuǎn)換成文字。然后通過分析文字知道我的目的是要打開空調(diào)，這后面一步就是自然語言理解（NLP）的任務(wù)。它理解了，知道我要做的是打開空調(diào)，于是就操縱空調(diào)上的接收器去打開，包括進(jìn)一步設(shè)置到某一個(gè)溫度?，F(xiàn)在基本上各種自然語言理解引擎都是把各種各樣的輸入信息轉(zhuǎn)換成文本來進(jìn)行處理、分析、切割，進(jìn)行語意的提取，包括情緒的提取?？梢哉f這是真正實(shí)現(xiàn)人機(jī)交互的基礎(chǔ)。

當(dāng)然整個(gè)交互的鏈條上還有一步，就是機(jī)器可能會(huì)與你對話，這里用到的就是語音合成（TTS）的技術(shù)，相當(dāng)于機(jī)器發(fā)聲。還有一個(gè)分支是跟語音交互相關(guān)的----語音翻譯，這里面就需要再加上一個(gè)機(jī)器翻譯的環(huán)節(jié)，把人說的話轉(zhuǎn)成文本之后再轉(zhuǎn)化成另外一種目標(biāo)語言，再去進(jìn)行NLP的處理和人機(jī)對話。

Q：如何來定義一個(gè)成功的NLP呢？

Danny：成功的NLP其實(shí)從最終用戶角度來講很簡單，就是能夠像真人一樣知道我要說什么，要做什么，能夠做出正確的動(dòng)作或者給出正確的反應(yīng)。所謂人工智能，它的參照物其實(shí)就是人，這里主要指人機(jī)交互這個(gè)限定的領(lǐng)域。而像AlphaGo下圍棋這種人工智能，與我們所說的人機(jī)交互是兩個(gè)不同的方向。人機(jī)交互就是以人的行為作為標(biāo)桿，Siri的語音助手或者百度音箱，對話的時(shí)候，如果我不看見你，我是不是能夠感覺到你是一個(gè)機(jī)器，還是說我根本就分辨不出來你是機(jī)器還是真人。如果做到分辨不出來，那就說明這個(gè)NLP已經(jīng)做到非常成功了，以假亂真了，當(dāng)然現(xiàn)在的技術(shù)水平還相距甚遠(yuǎn)。

Q：NLP的難點(diǎn)主要體現(xiàn)在轉(zhuǎn)換的過程，也就是從語音和圖像轉(zhuǎn)換成文字這一部分？

Danny：其實(shí)真正的難點(diǎn)不在于轉(zhuǎn)換的過程，而在于分析的過程。因?yàn)榉治鑫谋?，并不是說簡單地把一些詞或者句子的內(nèi)容識(shí)別出來，因?yàn)槟闶且R(shí)別意圖的。而最麻煩的是，人的意圖是發(fā)散的。我說“把空調(diào)開到26度”，這是一個(gè)確定的、有限的集合，作為智能家電也好或者智能音箱也好，相對比較容易應(yīng)對。但更多的情況下，我說的話是模糊的，有多種可能的含義，而且往往是有上下文的，附加背景知識(shí)的，這本身就是一個(gè)開放的集合，這種情景下NLP引擎能夠做到準(zhǔn)確分析正確應(yīng)對就難度非常大了。

基于以上的原因，所以各個(gè)廠家在做NLP引擎或者應(yīng)用的時(shí)候，他們往往都會(huì)事先圈定好一些應(yīng)用場景，比如一些最常見的設(shè)鬧鐘、設(shè)日歷、客服對常見問題的回答，或者一些常見的搜索內(nèi)容，點(diǎn)播視頻或者找餐館這些。這樣在相對有限的一些場景里面，它才可以對常見的意圖進(jìn)行理解分析和應(yīng)對。對引擎訓(xùn)練范圍之外的內(nèi)容，它就會(huì)說對不起，我沒聽懂你說什么。

這也是為什么你會(huì)發(fā)現(xiàn)跟語音助手對話的時(shí)候，它經(jīng)常會(huì)說我沒聽懂，然后把你說的話轉(zhuǎn)成文字，給你一個(gè)相當(dāng)于網(wǎng)上搜索的鏈接，事實(shí)上這就是因?yàn)樗澈蟮腘LP引擎沒有辦法處理這一類的內(nèi)容。

Q：它沒有辦法甄別像語氣這類吧，因?yàn)椴煌恼Z氣，從情緒上面可能意思會(huì)截然相反，實(shí)際上也就是無法解鎖情緒分析？

Danny：語氣是情感分析的一部分，這是很重要的一個(gè)方面，也可以說是一個(gè)難點(diǎn)。如果你試著用不同的語氣跟一個(gè)語音助手說話，比如用一個(gè)反問句，它很可能會(huì)給你一個(gè)錯(cuò)誤的對答。

目前也不是說沒辦法。一方面，需要用大量的數(shù)據(jù)進(jìn)行訓(xùn)練來覆蓋各種各樣的場景，包括類似的內(nèi)容不同的語氣，不同的上下文所代表的不同含義；另一方面，做任何事情都有不同階段，首先要把最基本的階段夯實(shí)，然后才能再逐步疊加各種復(fù)雜的維度。比如正常對話的語氣，正常語速，沒有特別明顯的環(huán)境噪音，也沒有很多人同時(shí)在說話，也都是非常普通的內(nèi)容，這種最基礎(chǔ)的、最常規(guī)的場景先要先訓(xùn)練好，才能逐步追求更高復(fù)雜度的。

Q：目前NLP基本上還是處在一個(gè)比較常規(guī)和基礎(chǔ)的上面，遠(yuǎn)沒達(dá)到對復(fù)雜維度的處理層面？

Danny：可以這樣說，就是在常規(guī)的程度上，覺得可以用，但離實(shí)際應(yīng)用場景中的“好用”相對還比較遠(yuǎn)。但是各廠家的做法不一樣。對百度、微軟、Google和Apple這種頭部大廠商來說，他們更多著眼于通用場景，而其他一些廠商則主要聚焦某些特定場景，比如在開車的時(shí)候人機(jī)交互的場景；在醫(yī)院里跟醫(yī)生、病人對話的場景；或者客服的場景，通過縮減它的使用范圍，在有限的投入之內(nèi)用有限的數(shù)據(jù)，這樣比較容易訓(xùn)練出一個(gè)可用的NLP引擎。

因?yàn)樽匀徽Z言處理不僅僅是機(jī)械的去識(shí)別聲波，它實(shí)際上是非常模糊的去識(shí)別、去判斷人跟你交流的意圖，這個(gè)復(fù)雜度確實(shí)非常高，一旦出錯(cuò)，很可能理解成相反的東西，甚至造成災(zāi)難性的后果。

Q：算法對NLP是第一位的嗎？

Danny：做任何人工智能的技術(shù)或者產(chǎn)品的研發(fā)，其實(shí)都需要三樣?xùn)|西，算法、算力和數(shù)據(jù)。算力本身就是一個(gè)支持性的東西。對于NLP而言，算法的理論突破是隔一段時(shí)間才會(huì)出現(xiàn)，而且現(xiàn)在行業(yè)內(nèi)算法的研究普遍是開源性質(zhì)的，各家的區(qū)別不大。所以真正核心的是數(shù)據(jù)。

數(shù)據(jù)之戰(zhàn)：NLP邁向?qū)嵱秒A段的核心所在

而數(shù)據(jù)本身是千變?nèi)f化的。比如把NLP和語音識(shí)別相對比，關(guān)于中文的語音識(shí)別，中國字的量，包括各種各樣的口音，這些都是有限的。但是說話的內(nèi)容和所表達(dá)的意圖卻是無限的，而且會(huì)有層出不窮的新內(nèi)容出現(xiàn)。比如像新冠肺炎這種，如果引擎到今年不更新，它可能就識(shí)別不了。因此這些AI公司，就需要大量的數(shù)據(jù)去訓(xùn)練，并且持續(xù)訓(xùn)練他們的模型。

2.

數(shù)據(jù)庫的優(yōu)點(diǎn)很明顯：第一，成本低；第二，時(shí)效快。成品數(shù)據(jù)庫可極大提升以機(jī)器學(xué)習(xí)作為核心技術(shù)的創(chuàng)業(yè)公司的競爭力。

Q：現(xiàn)在一些廠家如澳鵬都提供一些成品數(shù)據(jù)庫，怎么看待數(shù)據(jù)庫對NLP引擎的作用？

Danny：數(shù)據(jù)有不同的來源，你可以花錢去采集，比如花錢請一個(gè)人錄一小時(shí)的音，也可以找一些公開的數(shù)據(jù)，比如演講視頻或者是有聲讀物，網(wǎng)站上的文字圖片等等。還有像語音助手、智能音箱、語音輸入法這些APP，如果經(jīng)過用戶的授權(quán)，在你用這些APP時(shí)就已經(jīng)把真實(shí)的用戶數(shù)據(jù)提供給開發(fā)APP的廠商了。

但這些都各有優(yōu)缺點(diǎn)，用戶數(shù)據(jù)是免費(fèi)的但不可控。如果你需要一些特定的數(shù)據(jù)，你就有可能找不到你需要的數(shù)據(jù)。當(dāng)然你也可以花錢去定向采集，但錢花多了能否承受，如果去找公開的數(shù)據(jù)，能找到多少是多少，又不具有系統(tǒng)性和針對性。

數(shù)據(jù)庫有什么存在的價(jià)值呢？第一，它是現(xiàn)成的，拿來就能用，而如果采集一個(gè)一千人說話的數(shù)據(jù)再進(jìn)行標(biāo)注，你可能需要兩個(gè)月到三個(gè)月，在當(dāng)今的互聯(lián)網(wǎng)時(shí)代，一個(gè)產(chǎn)品周期都過去了。第二，數(shù)據(jù)庫成本低，因?yàn)檫@不是為某一個(gè)人的特定需求去定向采集的，做好了可以反復(fù)的賣，每次賣的時(shí)候，價(jià)格就可放低，在資金有限的情況下是非常重要的因素。

但是它不好的地方呢？它已經(jīng)是現(xiàn)成的，所以不能改，它不是針對你的某一個(gè)具體的應(yīng)用而特意優(yōu)化的，所以數(shù)據(jù)庫是有很確定的使用場景，比如開發(fā)一個(gè)自然語言理解的引擎，或者語音識(shí)別的引擎，在早期階段用數(shù)據(jù)庫是一個(gè)非常好的方式，但是到后期針對你的應(yīng)用場景再調(diào)試的時(shí)候就需要去補(bǔ)充其他定制的數(shù)據(jù)。

所以一直以來很多做人工智能的企業(yè)，都非常愿意去買數(shù)據(jù)庫。他們開發(fā)一個(gè)早期的引擎，就是希望以低成本和很短的時(shí)間快速上手進(jìn)入市場。這對當(dāng)下中國市場來說尤為重要，因?yàn)橹袊袌龅牡俣缺葰W美要快的多，可以說時(shí)間就是生命。

所以說在國內(nèi)，像澳鵬這種成品數(shù)據(jù)庫，拿來就能用的，確實(shí)非常受歡迎。

3.

成品數(shù)據(jù)庫不僅對初創(chuàng)公司尤為重要，像Google、Facebook等這樣的巨頭對其需求也始終很旺盛。

Q：數(shù)據(jù)庫對一些創(chuàng)業(yè)型公司非常適用，但對Google等這樣的頭部廠商呢？

Danny：事實(shí)上，這些大企業(yè)他們的需求可能還會(huì)更多。一方面他們會(huì)把同樣的引擎推向不同的應(yīng)用場景，另一方面會(huì)推向不同國家的市場，這樣就會(huì)不斷地重復(fù)從基礎(chǔ)到定向開發(fā)的循環(huán)。

數(shù)據(jù)之戰(zhàn)：NLP邁向?qū)嵱秒A段的核心所在

比如去年的一個(gè)美國英語雙人對話的數(shù)據(jù)庫，中國的客戶和美國的客戶都有大量需求，絕大部分還都是很有名的大公司，為什么呢？因?yàn)樗麄冞M(jìn)入到了一個(gè)新的階段，比如單人說話的識(shí)別引擎差不多了，要拓展到能夠識(shí)別兩個(gè)人對話，多人對話，甚至多人開會(huì)，一個(gè)人說話這樣的語音素材顯然不夠了，而是需要雙人對話的語音素材，那么就相當(dāng)于從一個(gè)較低的起點(diǎn)再開始，這正是數(shù)據(jù)庫最適用的地方。

而另一個(gè)非常明顯的趨勢是目前中國這些領(lǐng)先的企業(yè)在拓展海外市場時(shí)，對中文以外的海外語言和外國人圖像的數(shù)據(jù)庫的需求也越來越旺盛。

Q：成品數(shù)據(jù)庫里面都是一些標(biāo)注好的數(shù)據(jù)嗎，還是已經(jīng)訓(xùn)練好的數(shù)據(jù)？

Danny：數(shù)據(jù)又可以分為訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)，數(shù)據(jù)庫都屬于訓(xùn)練數(shù)據(jù)。比如一個(gè)西班牙語500小時(shí)的語音識(shí)別數(shù)據(jù)庫，它最主體的內(nèi)容就是500小時(shí)的可能是500個(gè)人或者800個(gè)人每個(gè)人說很多句話的錄音音頻。但是光有這些錄音往往還是不夠的，還要對這些數(shù)據(jù)進(jìn)行一些加工，比如說要做轉(zhuǎn)寫，提供相對應(yīng)的文字文本，要讓計(jì)算機(jī)知道每一條音頻文件里面的波形圖對應(yīng)的是什么文本內(nèi)容，這樣才能進(jìn)行引擎訓(xùn)練。

做語音識(shí)別引擎的訓(xùn)練，比如一條音頻10秒鐘長，不僅要識(shí)別出來說的話，凡是這一段音頻里面出現(xiàn)的聲音都要能夠辨別，比如開門的聲音，打噴嚏的聲音，小孩在哭的聲音，放音樂的聲音，或者旁邊有汽車經(jīng)過的聲音，都要能夠識(shí)別出來這是有用的聲音內(nèi)容還是無用的干擾聲，所以語音轉(zhuǎn)寫它還包括區(qū)分各種各樣類型的聲音。

還有一些相對比較復(fù)雜的處理，比如它還會(huì)包括時(shí)間戳，尤其是在雙人或者多人對話的情況下，每個(gè)人說話的起始位置和結(jié)束位置，包括說話人的區(qū)分。很多時(shí)候還會(huì)要附帶相應(yīng)的發(fā)音詞典。整個(gè)語音數(shù)據(jù)庫，比如這500小時(shí)的音頻里面可能出現(xiàn)了3700個(gè)不同的單詞，每一個(gè)單詞它按照語言學(xué)領(lǐng)域標(biāo)準(zhǔn)的音標(biāo)表，都要把出現(xiàn)過的發(fā)音給標(biāo)出來。

數(shù)據(jù)之戰(zhàn)：NLP邁向?qū)嵱秒A段的核心所在

一般這樣就算是一個(gè)相對完整的語音數(shù)據(jù)庫，把這樣一套基本素材提供給客戶，讓他將這個(gè)數(shù)據(jù)集灌到模型里面去訓(xùn)練，參照對應(yīng)的文本，時(shí)間戳，發(fā)音詞典，就可以做出有一定識(shí)別能力的一個(gè)引擎。而發(fā)音詞典又可以獨(dú)立出來，因?yàn)閱卧~的發(fā)音是比較固定的。所以澳鵬又有很多專門的發(fā)音詞典庫，近百種語言，每個(gè)語言少則幾千條詞條，多則幾十萬條詞條。

Q：目前國內(nèi)這些NLP在海外覆蓋的多，還是中文的多？

Danny：當(dāng)然國內(nèi)肯定都是立足于中文普通話和方言市場，但是國內(nèi)市場現(xiàn)在已經(jīng)競爭白日化了，國外這些行業(yè)里的巨頭也在試圖分一杯羹，因此國內(nèi)的頭部企業(yè)也要尋求增長點(diǎn)，越來越多的是把目光投向海外市場上。比如像阿里、華為、OV、小米、科大訊飛，字節(jié)跳動(dòng)這些公司這兩年海外拓展力度都很大。

可以說，大家眼光一邊盯著海外市場布局，一邊繼續(xù)在國內(nèi)市場深耕以堅(jiān)守自己的大本營。

4.

成本低、時(shí)效快的成品數(shù)據(jù)庫對ASR/TTS/NLP引擎開發(fā)事半功倍。

Q：ASR/TTS 在難度上有差別么？為什么說更適合用數(shù)據(jù)庫？

Danny：其實(shí)它們是不同的應(yīng)用類型，ASR就是一個(gè)語音識(shí)別。通俗說，就是把人說的內(nèi)容轉(zhuǎn)換成對應(yīng)的文字。比如微信語音可以直接轉(zhuǎn)換成文字，這就是一個(gè)直觀的ASR應(yīng)用。TTS（Text to Speech）,就是文本到語音，在業(yè)界的一個(gè)說法就是合成語音，也就是讓機(jī)器說話。TTS實(shí)際上它是反過來的，先給機(jī)器提供文本，機(jī)器對照著這個(gè)文本，相當(dāng)于念稿子一樣的，機(jī)器能夠發(fā)出對應(yīng)的音來，當(dāng)然TTS合成語音的做法又跟語音識(shí)別的做法不太一樣，不僅訓(xùn)練方式不一樣，而且它所需要的數(shù)據(jù)也不一樣。

相對而言，TTS的技術(shù)是比較容易的，而且也是目前最成熟的。如果從頭去采集做TTS引擎的數(shù)據(jù)，即使只是10個(gè)小時(shí)的音頻數(shù)據(jù)，再加上韻律標(biāo)注和發(fā)音詞典的制作，兩三個(gè)月都不一定做得完，成本會(huì)相當(dāng)高，這還只是數(shù)據(jù)準(zhǔn)備的階段。如果是采購成品數(shù)據(jù)庫，拿到數(shù)據(jù)以后兩個(gè)星期就可以完成所有數(shù)據(jù)準(zhǔn)備和引擎開發(fā)的過程，做出一個(gè)可用的TTS引擎來，這就是數(shù)據(jù)庫的好處。

再比如一個(gè)500小時(shí)的西班牙語的ASR語言數(shù)據(jù)集，如果全部從頭做,跟買數(shù)據(jù)庫相比成本上至少要差到一倍以上，時(shí)間上來講連音頻的采集帶加工，附加對應(yīng)文字的轉(zhuǎn)寫和發(fā)音詞典，最少需要兩至三個(gè)月。但如果是購買數(shù)據(jù)庫，今天簽合同，明天就可以傳過去了。

Q：后續(xù)是否需要提供更適合需求為具體場景而定制的數(shù)據(jù)來替代成品數(shù)據(jù)庫？

Danny：不完全是這樣，市場上一直既有成品數(shù)據(jù)庫的大量需求，也有大量需求需要定制，二者并不矛盾。任何場景都需要從基礎(chǔ)起步，而這個(gè)階段就是成品數(shù)據(jù)庫最能發(fā)揮優(yōu)勢的階段。以前人工智能技術(shù)開發(fā)所關(guān)注的場景比較少，對數(shù)據(jù)庫需求的種類也少，隨著場景的多元化，數(shù)據(jù)庫的需求也隨之增大，只是對數(shù)據(jù)內(nèi)容和精度的要求持續(xù)在變化。我們的判斷就是某一類需求僅僅是一個(gè)一次性的需求，還是說可能會(huì)有一些普遍的需求，對于可能會(huì)產(chǎn)生重復(fù)需求的，我們就可以把它制作成一個(gè)數(shù)據(jù)庫。比如嬰幼兒啼哭的數(shù)據(jù)，很可能做智能家居的廠家在產(chǎn)品研發(fā)的某一個(gè)階段就會(huì)用到，我們認(rèn)為就值得去做成一個(gè)數(shù)據(jù)庫。

Q：最后，澳鵬目前也在做成品數(shù)據(jù)庫，你能介紹一下你們產(chǎn)品的特色？

Danny: 我們根據(jù)市場上頭部公司和創(chuàng)業(yè)公司的需求趨勢，及20多年行業(yè)經(jīng)驗(yàn)的累積，可以為我們的客戶提供豐富的成品數(shù)據(jù)庫來加快其AI產(chǎn)品的開發(fā)及迭代。

數(shù)據(jù)之戰(zhàn)：NLP邁向?qū)嵱秒A段的核心所在

* 語音識(shí)別庫（ASR）64種語言， 21,000小時(shí)
* 合成語音庫（TTS）3種語言4種音色
* 發(fā)音詞典98種語言，460萬詞條
* 詞性詞典21種語言，190萬詞條
* 命名實(shí)體庫（NER）8種語言
* 詞形分析器3種語言
* 黑人面部圖片1000人13萬張
* 中國人帶口罩面部圖片1000人7000張
* OCR圖片泰語、芬蘭語、中文各5000張
* 嬰兒啼哭音頻數(shù)據(jù)300人300分鐘
* 家貓表情動(dòng)作視頻1000只

除了這里列出的數(shù)據(jù)庫以外，我們還在持續(xù)制作新的數(shù)據(jù)庫來滿足市場需求，也非常歡迎戰(zhàn)斗在AI技術(shù)一線的同行們向我們提出數(shù)據(jù)庫的期望。

雷鋒網(wǎng)AI 科技評(píng)論注：欲了解澳鵬在成品數(shù)據(jù)庫方面的工作，可以訪問此鏈接， https://www.appen.com.cn/off-the-shelf-linguistic-resources/

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。