久久精品无码视频|精产国品色情一二三区在线观看|国产性爱自拍视频|亚洲av韩国av|日韩美女一级AAA大片|少妇无码激情诱惑|日韩AV在线播放有码|一级黄片一级黄片|av上一页亲亲久草av|aaa在线观看国产做爱

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能開發(fā)者 正文
發(fā)私信給汪思穎
發(fā)送

0

美國最大點(diǎn)評(píng)網(wǎng)站Yelp公開內(nèi)部數(shù)據(jù)集,面向?qū)W生發(fā)起多樣挑戰(zhàn)賽

本文作者: 汪思穎 2017-08-31 17:16
導(dǎo)語:快來實(shí)戰(zhàn)

雷鋒網(wǎng) AI 科技評(píng)論消息,日前,美國最大的點(diǎn)評(píng)網(wǎng)站Yelp公開其內(nèi)部數(shù)據(jù)集。據(jù)官網(wǎng)介紹,這是一個(gè)通用數(shù)據(jù)集,開放這個(gè)數(shù)據(jù)集的主要目的是幫助學(xué)習(xí)。

美國最大點(diǎn)評(píng)網(wǎng)站Yelp公開內(nèi)部數(shù)據(jù)集,面向?qū)W生發(fā)起多樣挑戰(zhàn)賽

這個(gè)數(shù)據(jù)集是Yelp涵蓋的商戶、點(diǎn)評(píng)和用戶數(shù)據(jù)的一個(gè)子集,可以用于個(gè)人、教育和學(xué)術(shù)。現(xiàn)在可以得到這個(gè)數(shù)據(jù)集的JSON和SQL文件,利用它來教學(xué)生關(guān)于數(shù)據(jù)庫的知識(shí),學(xué)習(xí)NLP,或在學(xué)習(xí)制作手機(jī)APP時(shí)作為樣本產(chǎn)品數(shù)據(jù)。

數(shù)據(jù)集詳細(xì)信息

美國最大點(diǎn)評(píng)網(wǎng)站Yelp公開內(nèi)部數(shù)據(jù)集,面向?qū)W生發(fā)起多樣挑戰(zhàn)賽

數(shù)據(jù)集包括470萬條用戶評(píng)價(jià),15多萬條商戶信息,20萬張圖片,12個(gè)大都市。此外,還涵蓋110萬用戶的100萬條tips,超過120萬條商家屬性(如營業(yè)時(shí)間、是否有停車場、是否可預(yù)訂和環(huán)境等信息),隨著時(shí)間推移在每家商戶簽到的總用戶數(shù)。

如何使用?

用戶可以使用JSON和SQL數(shù)據(jù)集。

  • JSON

能立刻建立和運(yùn)行

以單獨(dú)的文件形式呈現(xiàn),你可以任意選擇

在任何應(yīng)用上都可以使用

JSON數(shù)據(jù)集中的每一個(gè)文件都由一個(gè)單獨(dú)的對(duì)象類型組成,一行表示一個(gè)JSON對(duì)象。

下面是一個(gè)商家簽到用戶數(shù)的實(shí)例。

美國最大點(diǎn)評(píng)網(wǎng)站Yelp公開內(nèi)部數(shù)據(jù)集,面向?qū)W生發(fā)起多樣挑戰(zhàn)賽

在GitHub上還有更多的例子:https://github.com/Yelp/dataset-examples

  • SQL

與大多數(shù)關(guān)系數(shù)據(jù)庫兼容

填充表具有引用完整性

只有一個(gè)文件,容易導(dǎo)入

表格之間的聯(lián)系和結(jié)構(gòu)如下圖所示:

美國最大點(diǎn)評(píng)網(wǎng)站Yelp公開內(nèi)部數(shù)據(jù)集,面向?qū)W生發(fā)起多樣挑戰(zhàn)賽

下載地址:https://s3-media2.fl.yelpcdn.com/assets/srv0/engineering_pages/5176da685fac/assets/vendor/yelp_schema.zip

關(guān)于數(shù)據(jù)集的挑戰(zhàn)賽

yelp希望更多的學(xué)生利用這些數(shù)據(jù),在研究中想出創(chuàng)新性方法,他們也提供了目前感興趣的一些主題。

一是圖片分類。目前他們雖然能識(shí)別出圖片中類似于漢堡之類的食物,但是如何評(píng)價(jià)一張圖片是否好看還有待研究。

二是自然語言處理和情感分析。用戶評(píng)價(jià)數(shù)據(jù)里有很多能挖掘的元數(shù)據(jù),可以用于推斷語義、商戶屬性和情感。他們想知道評(píng)價(jià)里表達(dá)了什么,是好評(píng)還是差評(píng)。

三是圖像挖掘。比如說挖掘出用戶之間的關(guān)系是如何限定他們的使用規(guī)律,流行趨勢的引導(dǎo)者在一家店火起來之前都是去哪兒吃飯的。

via:https://www.yelp.com/dataset

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

美國最大點(diǎn)評(píng)網(wǎng)站Yelp公開內(nèi)部數(shù)據(jù)集,面向?qū)W生發(fā)起多樣挑戰(zhàn)賽

分享:

編輯

關(guān)注AI學(xué)術(shù),例如論文
當(dāng)月熱門文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說