多模態(tài)語(yǔ)料庫(kù) “書(shū)生·萬(wàn)卷” 1.0發(fā)布，面向行業(yè)開(kāi)源

本文作者：聰聰

2023-08-24 16:49

導(dǎo)語(yǔ)：語(yǔ)料庫(kù)包含文本數(shù)據(jù)集、圖文數(shù)據(jù)集、視頻數(shù)據(jù)集三部分，數(shù)據(jù)總量超過(guò)2TB。

國(guó)產(chǎn)大模型時(shí)代，高質(zhì)量、開(kāi)源、可信數(shù)據(jù)的重要性不言而喻，但它的稀缺性也是 AI 同行有目共睹的。

為了改變這一現(xiàn)狀，OpenDataLab 聯(lián)合大模型語(yǔ)料數(shù)據(jù)聯(lián)盟構(gòu)建了“書(shū)生·萬(wàn)卷”數(shù)據(jù)集，旨在為學(xué)術(shù)界及產(chǎn)業(yè)界提供更符合主流中文價(jià)值對(duì)齊的高質(zhì)量大模型多模態(tài)預(yù)訓(xùn)練語(yǔ)料。雷峰網(wǎng)(公眾號(hào)：雷峰網(wǎng))了解到，“書(shū)生·萬(wàn)卷” 1.0 版本已經(jīng)于8 月14日正式發(fā)布。

書(shū)生·萬(wàn)卷1.0 是書(shū)生·萬(wàn)卷多模態(tài)語(yǔ)料庫(kù)的首個(gè)開(kāi)源版本，包含文本數(shù)據(jù)集、圖文數(shù)據(jù)集、視頻數(shù)據(jù)集三部分，數(shù)據(jù)總量超過(guò)2TB?；诖竽Ｐ蛿?shù)據(jù)聯(lián)盟構(gòu)建的語(yǔ)料庫(kù)，上海AI實(shí)驗(yàn)室對(duì)其中部分?jǐn)?shù)據(jù)進(jìn)行細(xì)粒度清洗、去重以及價(jià)值對(duì)齊，形成了書(shū)生·萬(wàn)卷1.0，具備多元融合、精細(xì)處理、價(jià)值對(duì)齊、易用高效等四大特征。

多元融合方面，書(shū)生·萬(wàn)卷1.0包含文本、圖文、視頻等多模態(tài)數(shù)據(jù)，范圍覆蓋科技、文學(xué)、媒體、教育、法律等多個(gè)領(lǐng)域，在訓(xùn)練提升模型知識(shí)含量、邏輯推理和泛化能力方面具有顯著效果。

精細(xì)處理方面，書(shū)生·萬(wàn)卷1.0經(jīng)歷了語(yǔ)言甄別、正文抽取、格式標(biāo)準(zhǔn)化、基于規(guī)則及模型的數(shù)據(jù)過(guò)濾與清洗、多尺度去重、數(shù)據(jù)質(zhì)量評(píng)估等精細(xì)化數(shù)據(jù)處理環(huán)節(jié)，因而能更好地適配后續(xù)的模型訓(xùn)練需求。

價(jià)值對(duì)齊方面，研究人員在書(shū)生·萬(wàn)卷1.0的構(gòu)建過(guò)程中，著眼于內(nèi)容與中文主流價(jià)值觀的對(duì)齊，通過(guò)算法與人工評(píng)估結(jié)合的方式，提升了語(yǔ)料的純凈度。

易用高效方面，研究人員在書(shū)生·萬(wàn)卷1.0采用統(tǒng)一格式，并提供詳細(xì)的字段說(shuō)明和工具指導(dǎo)，使其兼顧了易用性和效率，可快速應(yīng)用于語(yǔ)言、多模態(tài)等大模型訓(xùn)練。

目前，書(shū)生·萬(wàn)卷1.0已被應(yīng)用于書(shū)生·多模態(tài)、書(shū)生·浦語(yǔ)大模型的訓(xùn)練。通過(guò)對(duì)高質(zhì)量語(yǔ)料的“消化”，書(shū)生系列模型在語(yǔ)義理解、知識(shí)問(wèn)答、視覺(jué)理解、視覺(jué)問(wèn)答等各類(lèi)生成式任務(wù)都表現(xiàn)出不錯(cuò)的性能。

據(jù)了解，書(shū)生·萬(wàn)卷文本數(shù)據(jù)集1.0 由來(lái)自網(wǎng)頁(yè)、百科、書(shū)籍、專(zhuān)利、教材、考題等不同來(lái)源的清洗后預(yù)訓(xùn)練語(yǔ)料組成，數(shù)據(jù)總量超過(guò)5億個(gè)文檔，數(shù)據(jù)大小超過(guò)1TB。該語(yǔ)料將html、text、pdf、epub等多種格式的數(shù)據(jù)統(tǒng)一處理為字段統(tǒng)一的jsonl格式，并經(jīng)過(guò)細(xì)粒度的清洗、去重、價(jià)值對(duì)齊，從而形成一份安全可信、高質(zhì)量的預(yù)訓(xùn)練語(yǔ)料。

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

0人收藏

相關(guān)文章

聰聰

主筆

個(gè)人微信：Congc_a，歡迎添加交流。

發(fā)私信

當(dāng)月熱門(mén)文章

做「機(jī)器人藍(lán)翔技?！?，蘇亮的機(jī)器人夢(mèng)想還有多遠(yuǎn)

久久精品无码视频|精产国品色情一二三区在线观看|国产性爱自拍视频|亚洲av韩国av|日韩美女一级AAA大片|少妇无码激情诱惑|日韩AV在线播放有码|一级黄片一级黄片|av上一页亲亲久草av|aaa在线观看国产做爱

多模態(tài)語(yǔ)料庫(kù) “書(shū)生·萬(wàn)卷” 1.0發(fā)布，面向行業(yè)開(kāi)源

多模態(tài)語(yǔ)料庫(kù) “書(shū)生·萬(wàn)卷” 1.0發(fā)布，面向行業(yè)開(kāi)源