英伟达发布 6.3 万亿 Token 大型 AI 磨练数据库 Nemotron-CC
发布日期:2025-02-20 06:15 点击次数:145
IT之家 1 月 13 日音尘,据英伟达官方博客,英伟达文书推出一款名为 Nemotron-CC 的大型英文 AI 磨练数据库,共计包含 6.3 万亿个 Token,其中 1.9 万亿为合成数据。英伟达宣称该磨练数据库不错匡助为学术界和企业界进一步鼓吹大说念话模子的磨练过程。
当今,业界万般 AI 模子的具体性能主要取决于相应模子的磨练数据。然而现存公开数据库在限制和质料上时常存在局限性,英伟达称 Nemotron-CC 的出现恰是为了惩办这一瓶颈,该磨练数据库 6.3 万亿 Token 的限制内含多数经过考证的高质料数据,堪称是“磨练大型说念话模子的理念念素材”。
数据起原方面,Nemotron-CC 基于 Common Crawl 网站数据构建,并在经过严格的数据处理过程后,索取而成高质料子集 Nemotron-CC-HQ。
在性能方面,英伟达称与当今业界跳动的公开英文磨练数据库 DCLM(Deep Common Crawl Language Model)比拟,使用 Nemotron-CC-HQ 磨练的模子在 MMLU(Massive Multitask Language Understanding)基准测试中的分数提高了 5.6 分。
进一步测试流露,使用 Nemotron-CC 磨练的 80 亿参数模子在 MMLU 基准测试均分数教授 5 分,在 ARC-Challenge 基准测试中教授 3.1 分,并在 10 项不同任务的平均发达中提高 0.5 分,特出了基于 Llama 3 磨练数据集开发的 Llama 3.1 8B 模子。
英伟达官方暗意,Nemotron-CC 的开发过程中使用了模子分类器、合成数据重述(Rephrasing)等本领,最大截止地保证了数据的高质料和万般性。同期他们还针对特定高质料数据裁汰了传统的启发式过滤器处理权重,从而进一步提高了数据库高质料 Token 的数目,并幸免对模子精准度变成挫伤。
IT之家扎眼到,英伟达已将 Nemotron-CC 磨练数据库已在 Common Crawl 网站上公开(点此探望),英伟达称联系文档文献将在稍晚时刻于该公司的 GitHub 页中公布。