久久精品无码视频|精产国品色情一二三区在线观看|国产性爱自拍视频|亚洲av韩国av|日韩美女一级AAA大片|少妇无码激情诱惑|日韩AV在线播放有码|一级黄片一级黄片|av上一页亲亲久草av|aaa在线观看国产做爱

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
業(yè)界 正文
發(fā)私信給木子
發(fā)送

0

希爾貝殼:做好AI數(shù)據(jù)基礎服務,實現(xiàn)人工智能民主化,我們?nèi)沃囟肋h

本文作者: 木子 2021-05-17 18:00
導語:數(shù)據(jù)和算法之間是一個辯證的關系,數(shù)據(jù)是算法的基礎,但開源的算法也為數(shù)據(jù)質(zhì)量助力。

人工智能時代已然來臨,伴隨著人工智能在各個場景中的落地應用,算法、算力不再是高壁壘,為了不斷提高算法精度,算法所必須的數(shù)據(jù)需求也空前爆發(fā),一度催生了AI基礎數(shù)據(jù)服務行業(yè)的繁榮。

行業(yè)繁榮的景象之下,還存在著一些問題,由于AI基礎數(shù)據(jù)服務的數(shù)據(jù)標注業(yè)務相對門檻較低,玩家魚龍混雜,使行業(yè)標準模糊,服務質(zhì)量參差不齊。目前多以人工標注為主,傳統(tǒng)標注工廠在“人工成本”方面的優(yōu)勢正不斷被削弱。因此,增強數(shù)據(jù)處理平臺持續(xù)學習和自學習能力,利用機器學習輔助人工提升標注維度和精度,同時降低人工成本已經(jīng)成為產(chǎn)業(yè)共識。另外,數(shù)據(jù)采集層面,針對數(shù)據(jù)源的版權(quán)問題、采集標準問題還沒有很好解決;數(shù)據(jù)庫的建設及服務還保持著一定的壁壘,通用場景的AI技術(shù)不斷成熟,如何建設高精尖數(shù)據(jù)庫在行業(yè)當下也需要去解決。

希爾貝殼成立于2017年,深耕場景AI數(shù)據(jù)服務,做好數(shù)據(jù)服務的技術(shù)創(chuàng)新同時并開始思考數(shù)據(jù)產(chǎn)業(yè)的下一步方向。

疫情肆掠過后,人工智能應用落地速度加快,而這背后,身處AI基礎數(shù)據(jù)行業(yè)的希爾貝殼也在加速前行。

用機器輔助做數(shù)據(jù)標注切入AI基礎數(shù)據(jù)服務行業(yè)

希爾貝殼創(chuàng)業(yè)初始聚焦語音數(shù)據(jù)服務,和創(chuàng)始人的背景密切相關。希爾貝殼CEO卜輝從韓國高麗大學AI實驗室碩士畢業(yè)后,就一直從事智能語音技術(shù)及數(shù)據(jù)庫建設方向的工作,對語音數(shù)據(jù)庫以及語音智能產(chǎn)品有著深入的研究。

AI的算法需要大量帶標簽的數(shù)據(jù),數(shù)據(jù)標注則是由人工為主導,在“有多少人工就有多智能”的產(chǎn)業(yè)背景之下,革新技術(shù),行業(yè)標準和門檻的提升則顯得更為迫切。

在人工智能快速迭代更新的節(jié)點,卜輝發(fā)現(xiàn)AI技術(shù)成本的變化速度驚人且市場競爭激烈,“比如一套通用AI系統(tǒng)相比一年前,價格基本折了三分之一,但是成就技術(shù)的數(shù)據(jù)并沒有貶值。相反,數(shù)據(jù)處理、采集和加工的人力成本越來越高”。

在這樣的背景下,智能化輔助標注平臺顯得尤為重要。這和卜輝最開始切入行業(yè)的初衷不謀而合。希爾貝殼的數(shù)據(jù)標注平臺在工作高峰期擁有上萬人在并行做數(shù)據(jù)標注的工作,如何在降低人工成本的情況下保證數(shù)據(jù)質(zhì)量,卜輝認為,應當基于一個強大的智能化工作平臺,通過完善算法模型和利用大數(shù)據(jù)分析來提高數(shù)據(jù)質(zhì)量的管控和質(zhì)檢,將重復的標注工作做到智能化管理,提高數(shù)據(jù)標注效率。成熟的算法好比智能車間里的機器人,大數(shù)據(jù)分析系統(tǒng)好比智慧大腦在24小時做項目管理工作。

希爾貝殼:做好AI數(shù)據(jù)基礎服務,實現(xiàn)人工智能民主化,我們?nèi)沃囟肋h

對此,希爾貝殼2018年研發(fā)并應用了四套智能標注系統(tǒng)來降低數(shù)據(jù)處理的成本:語音數(shù)據(jù)質(zhì)量評測系統(tǒng)、語音自動標注系統(tǒng)、音頻檢索系統(tǒng)、智能化標注眾包大數(shù)據(jù)分析系統(tǒng)。在數(shù)據(jù)任務分發(fā)、自動糾錯、數(shù)據(jù)質(zhì)量跟蹤上,提高了數(shù)據(jù)標注的效率,降低了1/3的人工成本,實現(xiàn)從人工到技術(shù),再讓技術(shù)輔助人工完成高效的標注工作。

希爾貝殼:做好AI數(shù)據(jù)基礎服務,實現(xiàn)人工智能民主化,我們?nèi)沃囟肋h

但卜輝對數(shù)據(jù)的思考并不止于此,“讓懂技術(shù)的人去做數(shù)據(jù),可以看到數(shù)據(jù)完整的生命周期。另外在數(shù)據(jù)采集方面,要確定版權(quán)除了人為的協(xié)議,還需要技術(shù)的加持,我們已經(jīng)在開發(fā)電子認證、數(shù)據(jù)加密,既要考慮版權(quán)也要重視數(shù)據(jù)流通的安全?!痹诓份x看來,好的數(shù)據(jù)能夠幫助算法更好的去落地。

對此,希爾貝殼還擁有自建數(shù)據(jù)庫的能力,并根據(jù)不同應用場景定制優(yōu)質(zhì)的數(shù)據(jù)庫,以提高深度學習的算法精度,精準解決產(chǎn)品在場景下的技術(shù)痛點。

探索及制作高精尖數(shù)據(jù)庫

自建數(shù)據(jù)庫,是希爾貝殼創(chuàng)立之初就帶有的基因,經(jīng)過4年的探索之后,卜輝越發(fā)地重視數(shù)據(jù)庫的業(yè)務,高精尖數(shù)據(jù)庫的研發(fā)投入也不斷擴大。并且在2019年,與西北工業(yè)大學音頻語音與語言處理研究組聯(lián)合成立“智能語音與多模態(tài)數(shù)據(jù)實驗室” 。

目前,希爾貝殼的客戶包括阿里、騰訊、京東、聯(lián)想、百度等,“大部分客戶更多的合作在于希爾貝殼的數(shù)據(jù)采標方案、數(shù)據(jù)的質(zhì)量和專業(yè)的服務上?!贝送猓栘悮こ掷m(xù)在數(shù)據(jù)開源的項目上做投入,目前開源的數(shù)據(jù)庫申請規(guī)模已經(jīng)達到了500+,實現(xiàn)了我們開源數(shù)據(jù)助力產(chǎn)學研共同發(fā)展的目的,在希爾貝殼的品牌建設上也樹立了口碑,在業(yè)務上也給希爾貝殼開拓了新的方向。而卜輝提到的開源數(shù)據(jù)項目,就是【AISHELL系列的精標語音數(shù)據(jù)集】。

希爾貝殼:做好AI數(shù)據(jù)基礎服務,實現(xiàn)人工智能民主化,我們?nèi)沃囟肋h

響應國家號召,加深【開源】項目建設

今年3月12日,新華社播發(fā) 《 中華人民共和國國民經(jīng)濟和社會發(fā)展第十四個五年規(guī)劃和2035年遠景目標綱要》,其中【開源】首次被明確列入國民經(jīng)濟和社會發(fā)展五年規(guī)劃綱要。從綱要提到的“支持數(shù)字技術(shù)開源社區(qū)等創(chuàng)新聯(lián)合體發(fā)展,完善開源知識產(chǎn)權(quán)和法律體系,鼓勵企業(yè)開放軟件源代碼、硬件設計和應用服務”,可以看出國家在戰(zhàn)略層面對「開源」的肯定和支持。這足以說明開源是大勢所趨。

希爾貝殼成立之初就建立了開源社區(qū),開源了178小時的AISHELL-1中文普通話精標語音數(shù)據(jù)集。同時搭載全球最大開源語音識別系統(tǒng)Kaldi做了一套開源方案,將有研發(fā)價值的數(shù)據(jù)貢獻到科研教育機構(gòu)。

AISHELL-1開源之后,卜輝發(fā)現(xiàn),高校學生在使用這套方案的同時,很多中小型企業(yè)也在利用它進行語音識別技術(shù)的研發(fā)和產(chǎn)品相關研究,但效果就偏弱了一些。

因此,在2018年6月23日Kaldi第三屆全國線下技術(shù)交流會上,作為聯(lián)合主辦方之一的希爾貝殼再次開源了全球最大的中文開源數(shù)據(jù)庫AISHELL-2,時長1000小時。這個開源項目不只局限于數(shù)據(jù),還包括Kaldi配套的recipe應用。同時成立了AISHELL Foundation來共同推進語音數(shù)據(jù)和技術(shù)的不斷開源計劃。

AISHELL-2由1991名來自中國不同口音區(qū)域的發(fā)言人參與錄制,文本內(nèi)容主要涉及喚醒詞、語音控制詞、智能家居、無人駕駛、工業(yè)生產(chǎn)等12個領域。并經(jīng)過專業(yè)語音校對人員轉(zhuǎn)寫標注,通過了嚴格質(zhì)量檢驗,數(shù)據(jù)庫文本正確率在98%以上。

AISHELL-2是全球最大的中文語音數(shù)據(jù)開源項目,也是最成功的。也正是因為這次開源,不僅讓希爾貝殼被業(yè)界所知曉,更是讓讓希爾貝殼收獲了全球的智能語音研究高校合作資源。 “AISHELL-2的開源項目,確定了數(shù)據(jù)開源的模式,即算法方案、優(yōu)質(zhì)的數(shù)據(jù)集、實驗系統(tǒng)的描述這三個維度來做方案,讓開源項目能夠惠及更多的開發(fā)者。對比CV領域ImageNet這樣的開源數(shù)據(jù)庫,我們做的還遠遠不夠,但我們會持續(xù)做下去,也希望整個產(chǎn)業(yè)有更多的人來貢獻?!辈份x強調(diào)。

希爾貝殼:做好AI數(shù)據(jù)基礎服務,實現(xiàn)人工智能民主化,我們?nèi)沃囟肋h

數(shù)據(jù)庫做為數(shù)據(jù)產(chǎn)品需要經(jīng)歷投入成本、市場認可、數(shù)據(jù)庫質(zhì)量三個維度考核,這也形成了數(shù)據(jù)庫的建設壁壘。AISHELL-1 & 2中文普通話精標語音數(shù)據(jù)集的建設與開源也驗證了希爾貝殼自建數(shù)據(jù)庫的能力。成熟的算法要解決場景化的匹配調(diào)優(yōu)問題,讓AI找到了新的挑戰(zhàn)。相對AISHELL-1 & 2 賦能基礎的語音應用技術(shù),場景化的數(shù)據(jù)庫建設更為復雜,需要考慮技術(shù)的滿足指標和真實場景數(shù)據(jù)的匹配等等。場景數(shù)據(jù)開源的方案希爾貝殼也陸續(xù)公開發(fā)布了 HI-MIA,智能家居場景的語音喚醒開源項目;聯(lián)合昆山杜克大學一起發(fā)布的多說話人語音合成項目AISHELL-3。 更是把智能語音技術(shù)+數(shù)據(jù)開源的方案樹立起了希爾貝殼自有的能力門檻,前沿技術(shù)落地數(shù)據(jù)先行的理念在希爾貝殼充分得到驗證。

希爾貝殼:做好AI數(shù)據(jù)基礎服務,實現(xiàn)人工智能民主化,我們?nèi)沃囟肋h

希爾貝殼:做好AI數(shù)據(jù)基礎服務,實現(xiàn)人工智能民主化,我們?nèi)沃囟肋h

今年希爾貝殼會推出AISHELL-4,聚焦會議場景的智能語音技術(shù)方案,目前開源項目的論文已經(jīng)公布,該項目方案也是產(chǎn)學研最全面的會議場景方案,相信會推動智能語音技術(shù)在會議場景的研究及落地。

希爾貝殼:做好AI數(shù)據(jù)基礎服務,實現(xiàn)人工智能民主化,我們?nèi)沃囟肋h

希爾貝殼目前已形成了智能語音技術(shù)+數(shù)據(jù)的矩陣開源方案,覆蓋語音識別、聲紋識別、語音合成、場景智能語音技術(shù)應用方案。

數(shù)據(jù)服務的創(chuàng)新思考:算法和數(shù)據(jù)的辯證關系

在不斷拓寬業(yè)務的深度和廣度的同時,卜輝更著重思考業(yè)務背后的技術(shù)邏輯,如何用技術(shù)助力和創(chuàng)新業(yè)務。創(chuàng)業(yè)期間,卜輝一直在思考數(shù)據(jù)標注、數(shù)據(jù)采集、數(shù)據(jù)庫和算法之間的聯(lián)系。在卜輝看來,數(shù)據(jù)和算法之間是一個辯證的關系,數(shù)據(jù)是算法的基礎,但開源的算法也為數(shù)據(jù)質(zhì)量助力,此外,數(shù)據(jù)庫的建設也需要有前沿算法的意識?!耙驗閿?shù)據(jù)庫是為算法和應用層服務的,在對算法有一定的了解背景下去做數(shù)據(jù)庫,則更為清晰。另外,技術(shù)落地數(shù)據(jù)先行是一個必然的趨勢。當技術(shù)逐漸成熟后科研人員更聚焦用數(shù)據(jù)去驗證技術(shù)?!?/p>

在AI基礎數(shù)據(jù)服務行業(yè)中,希爾貝殼已經(jīng)擁有了成熟的兩大業(yè)務形式,包括數(shù)據(jù)集產(chǎn)品(自建并開源數(shù)據(jù)庫)和數(shù)據(jù)需求的定制服務(數(shù)據(jù)采集/標注)。卜輝說道:“做好場景下的數(shù)據(jù)采標,垂直在場景建數(shù)據(jù)庫,已經(jīng)成為希爾貝殼的特色和亮點。在AI新基建的路上,非結(jié)構(gòu)化數(shù)據(jù)的管理、標注、分析、安全等還有很多問題需要解決,基礎數(shù)據(jù)服務要跟上產(chǎn)業(yè)的發(fā)展投入研發(fā)拓展創(chuàng)新,才能真正做到服務產(chǎn)業(yè)服務好產(chǎn)業(yè)。”

希爾貝殼:做好AI數(shù)據(jù)基礎服務,實現(xiàn)人工智能民主化,我們?nèi)沃囟肋h

盡管身處在AI基礎數(shù)據(jù)服務行業(yè),但從希爾貝殼的4年發(fā)展路徑來看,聚焦場景化數(shù)據(jù)業(yè)務,其對人工智能數(shù)據(jù)的思考和創(chuàng)新不止于此,這和創(chuàng)始人卜輝的創(chuàng)新思維有很大的聯(lián)系。卜輝一直強調(diào),創(chuàng)新的力量,“盡管數(shù)據(jù)服務屬于人工智能產(chǎn)業(yè)的基礎層,越基礎越要做到扎實,思考不能局限在這一層,從產(chǎn)業(yè)的角度去思考和改變,不斷提升我們的業(yè)務能力?!?/p>

在卜輝看來,希爾貝殼用4年的時間做數(shù)據(jù)層面的創(chuàng)新只是第一步。談及未來的規(guī)劃,卜輝說道:“通過技術(shù)引領數(shù)據(jù)業(yè)務的發(fā)展,通過數(shù)據(jù)帶動技術(shù)產(chǎn)業(yè)的成熟,在未來用前沿的數(shù)據(jù)庫去服務開發(fā)者和科研人員,降低企業(yè)在算法落地層面的成本。還要用更多的開源數(shù)據(jù)與教育、研發(fā)、產(chǎn)品等相結(jié)合讓技術(shù)落地走進更多的場景,為實現(xiàn)人工智能民主化希爾貝殼還需要更努力?!?/p>

雷鋒網(wǎng)雷鋒網(wǎng)

雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

分享:
相關文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設置密碼以方便用郵箱登錄
立即設置 以后再說