《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 人工智能 > 業(yè)界動(dòng)態(tài) > 英偉達(dá)發(fā)布6.3萬億Token大型AI訓(xùn)練數(shù)據(jù)庫Nemotron-CC

英偉達(dá)發(fā)布6.3萬億Token大型AI訓(xùn)練數(shù)據(jù)庫Nemotron-CC

2025-01-14
來源:IT之家
關(guān)鍵詞: 英偉達(dá) AI Nemotron-CC

1 月 13 日消息,據(jù)英偉達(dá)官方博客,英偉達(dá)宣布推出一款名為 Nemotron-CC 的大型英文 AI 訓(xùn)練數(shù)據(jù)庫,總計(jì)包含 6.3 萬億個(gè) Token,其中 1.9 萬億為合成數(shù)據(jù)。英偉達(dá)聲稱該訓(xùn)練數(shù)據(jù)庫可以幫助為學(xué)術(shù)界和企業(yè)界進(jìn)一步推動(dòng)大語言模型的訓(xùn)練過程。

2.jpg

目前,業(yè)界各類 AI 模型的具體性能主要取決于相應(yīng)模型的訓(xùn)練數(shù)據(jù)。然而現(xiàn)有公開數(shù)據(jù)庫在規(guī)模和質(zhì)量上往往存在局限性,英偉達(dá)稱 Nemotron-CC 的出現(xiàn)正是為了解決這一瓶頸,該訓(xùn)練數(shù)據(jù)庫 6.3 萬億 Token 的規(guī)模內(nèi)含大量經(jīng)過驗(yàn)證的高質(zhì)量數(shù)據(jù),號(hào)稱是 " 訓(xùn)練大型語言模型的理想素材 "。

數(shù)據(jù)來源方面,Nemotron-CC 基于 Common Crawl 網(wǎng)站數(shù)據(jù)構(gòu)建,并在經(jīng)過嚴(yán)格的數(shù)據(jù)處理流程后,提取而成高質(zhì)量子集 Nemotron-CC-HQ。

在性能方面,英偉達(dá)稱與目前業(yè)界領(lǐng)先的公開英文訓(xùn)練數(shù)據(jù)庫 DCLM(Deep Common Crawl Language Model)相比,使用 Nemotron-CC-HQ 訓(xùn)練的模型在 MMLU(Massive Multitask Language Understanding)基準(zhǔn)測試中的分?jǐn)?shù)提高了 5.6 分。

進(jìn)一步測試顯示,使用 Nemotron-CC 訓(xùn)練的 80 億參數(shù)模型在 MMLU 基準(zhǔn)測試中分?jǐn)?shù)提升 5 分,在 ARC-Challenge 基準(zhǔn)測試中提升 3.1 分,并在 10 項(xiàng)不同任務(wù)的平均表現(xiàn)中提高 0.5 分,超越了基于 Llama 3 訓(xùn)練數(shù)據(jù)集開發(fā)的 Llama 3.1 8B 模型。

3.jpg

英偉達(dá)官方表示,Nemotron-CC 的開發(fā)過程中使用了模型分類器、合成數(shù)據(jù)重述(Rephrasing)等技術(shù),最大限度地保證了數(shù)據(jù)的高質(zhì)量和多樣性。同時(shí)他們還針對特定高質(zhì)量數(shù)據(jù)降低了傳統(tǒng)的啟發(fā)式過濾器處理權(quán)重,從而進(jìn)一步提高了數(shù)據(jù)庫高質(zhì)量 Token 的數(shù)量,并避免對模型精確度造成損害。

英偉達(dá)已將 Nemotron-CC 訓(xùn)練數(shù)據(jù)庫已在 Common Crawl 網(wǎng)站上公開(點(diǎn)此訪問),英偉達(dá)稱相關(guān)文檔文件將在稍晚時(shí)候于該公司的 GitHub 頁中公布。


Magazine.Subscription.jpg

本站內(nèi)容除特別聲明的原創(chuàng)文章之外,轉(zhuǎn)載內(nèi)容只為傳遞更多信息,并不代表本網(wǎng)站贊同其觀點(diǎn)。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問題,請及時(shí)通過電子郵件或電話通知我們,以便迅速采取適當(dāng)措施,避免給雙方造成不必要的經(jīng)濟(jì)損失。聯(lián)系電話:010-82306118;郵箱:aet@chinaaet.com。
主站蜘蛛池模板: 欧美无遮挡国产欧美另类| 韩国无遮挡吃奶床戏| 成人深夜福利在线播放不卡| 亚洲男女一区二区三区| 试看60边摸边吃奶边做| 国产精品无圣光一区二区| 一级做a爰全过程免费视频| 日韩精品免费一线在线观看| 亚洲综合伊人久久大杳蕉| 色偷偷成人网免费视频男人的天堂 | 久久久噜久噜久久gif动图| 天天射综合网站| 中文字幕第二十页| 本子库里番acg全彩无遮挡| 做受视频60秒试看| 老熟妇仑乱视频一区二区| 国产真实乱xxxav| 99久久人妻精品免费二区| 成人精品视频99在线观看免费| 亚洲AV一二三区成人影片| 毛片一级在线观看| 刘伯温致力打造火热全网| 谷雨生的视频vk| 国产欧美日韩中文久久| 91精品久久久| 好先生app下载轻量版安卓| 久久久久亚洲av无码尤物| 欧美一区二区久久精品| 亚洲第一区在线| 粗大的内捧猛烈进出在线视频| 国产一区二区在线|播放| 欧美xxxxbbb| 国产精品综合一区二区| www.欧美色| 成人欧美一区二区三区| 久久国产美女免费观看精品| 欧美伊人久久久久久久久影院| 亚洲综合精品香蕉久久网| 精品国产三级a∨在线欧美 | 中文字幕日韩精品一区二区三区 | 日本三区精品三级在线电影|