《電子技術應用》
您所在的位置:首頁 > 人工智能 > 業界動態 > 智源指數CUGE發布,AI大模型有了評測新基準

智源指數CUGE發布,AI大模型有了評測新基準

2021-12-31
來源:人民微看點
關鍵詞: 智源指數 CUGE AI

人工智能大模型方興未艾,評測基準成為大模型發展的風向標。在北京智源人工智能研究院(以下簡稱“智源研究院”)近日舉行的自然語言處理(簡稱NLP)重大研究方向前沿技術開放日活動上,中文語言理解和生成的評測新基準——智源指數發布。

近些年來,英文評測基準GLUE等評測基準成為衡量大模型語言智能進展的重要標準,受到學界和業界的廣泛關注。但是,GLUE只評測語言理解能力,而忽略語言生成、多語言、數學推理等重要語言能力;只提供數據集得分和總體得分,并且總體得分容易受到少數數據集的主導。

從扁平到全面系統,從簡化到多重維度,智源指數CUGE旨在嘗試為大模型評測設計一張全面評估綜合能力的新考卷。

在基準框架上,智源指數不同于傳統將常用數據集扁平組織的方式,根據人類語言考試大綱和當前NLP研究現狀,以語言能力-任務-數據集的分層框架來選擇和組織數據集,涵蓋7種重要的語言能力、17個主流NLP任務和19個代表性數據集,全面均衡,避免“偏科選拔”。

在評分策略上,智源指數能更好展現模型不同維度的模型語言智能差異,依托層次性基準框架,提供不同層次的模型性能評分,包括在數據集、任務和語言能力等,系統性大大加強。

為了促進智源指數的共建共享,提升智源指數的易用性,本次活動還同時發布了在線評測平臺和公開排行榜,支持多種展示模式,包含綜合榜、精簡榜和單數據集榜,方便用戶快速多角度了解模型和數據集特性及最新動態。

發布僅是起點,發展還需生態共建——清華大學副教授、智源青年科學家、智源指數建設骨干成員劉知遠說:“基于單數據集的榜單能力,未來智源指數將定期吸納最新優秀數據集。同時,我們還將依托智源研究院、智源社區的力量,建立用戶面向數據集和評測結果的反饋、討論機制,構建起中文高質量數據集社區,推動中文自然語言處理的發展?!?/p>

在智源研究院的支持下,自然語言處理重大研究方向學者團隊積極探索自然語言處理新格局,通過大數據與富知識雙輪驅動,并通過與跨模態信息進行交互,顯著提升以自然語言為核心的中文語義理解與生成能力。

落地應用方面,清華大學李涓子教授團隊構建的“多模態北京旅游知識圖譜”可以為路徑規劃和景點信息查詢等功能提供數據支持,為游客進行旅游行程的規劃。

據悉,智源指數受到北京智源人工智能研究院的支持,工作委員單位由清華大學、北京大學、人民大學、中國科學院、北京語言大學、復旦大學、哈爾濱工業大學、上海交通大學、蘇州大學、大連理工大學、山西大學、京東研究院組成。




最后文章空三行圖片.jpg


本站內容除特別聲明的原創文章之外,轉載內容只為傳遞更多信息,并不代表本網站贊同其觀點。轉載的所有的文章、圖片、音/視頻文件等資料的版權歸版權所有權人所有。本站采用的非本站原創文章及圖片等內容無法一一聯系確認版權者。如涉及作品內容、版權和其它問題,請及時通過電子郵件或電話通知我們,以便迅速采取適當措施,避免給雙方造成不必要的經濟損失。聯系電話:010-82306118;郵箱:aet@chinaaet.com。
主站蜘蛛池模板: 熟妇人妻videos| www亚洲精品| 日本免费网站在线观看| 亚洲精品无码你懂的| 色先锋资源久久综合5566| 国产精品嫩草影院免费| √天堂中文在线最新版8下载| 日韩欧美在线播放| 亚洲欧美精品午睡沙发| 精品国产第一国产综合精品| 国产成a人亚洲精v品无码| 97se亚洲国产综合自在线| 性欧美暴力猛交xxxxx高清| 久久精品日日躁精品| 欧美色欧美亚洲高清在线观看| 又硬又粗又长又爽免费看| 成+人+黄+色+免费观看| 国内精品久久久久影院一蜜桃| 中文www新版资源在线| 日本在线视频网址| 91av福利视频| 波多野结衣制服诱惑| 啦啦啦中文高清在线观看6| 精品福利视频导航| 在线观看国产成人av片| 国产又爽又黄又无遮挡的激情视频 | 精品伊人久久久久7777人| 国产在线精品香蕉麻豆| **一级毛片在线直播| 天天摸天天碰天天爽天天弄| 中文字幕日韩一区二区三区不卡| 最新夫妇交换乱的中文字幕| 亚洲欧美日韩另类在线一| 男男动漫全程肉无删减彩漫 | 三级视频网站在线观看| 日本黄色片在线播放| 亚洲中久无码永久在线观看同| 毛片a级毛片免费观看品善网| 再深点灬舒服灬太大| 色费女人18毛片a级毛片视频| 国产成人精品午夜二三区波多野 |