栏目分类
热点资讯
你的位置:科技前沿网 > 创新应用 > 彩云小梦V3.5上线!首个基于DCFormer架构通用大模子发布

创新应用

彩云小梦V3.5上线!首个基于DCFormer架构通用大模子发布

发布日期:2024-12-11 09:51    点击次数:177

彩云小梦V3.5上线!首个基于DCFormer架构通用大模子发布

2017年,谷歌发布《Attention Is All You Need》论文,初次提议Transformer架构,大开了东说念主工智能当然言语责罚(NLP)范畴发展的全新篇章。Transformer架构四肢神经聚集学习中最紧迫的架构,成为自后席卷全球的一系列通用大模子如ChatGPT、Gemini的底层工夫支抓。而提高Transformer的运行服从也成为东说念主工智能范畴的联想热门,2024年4月,谷歌最近一次更新了Transformer架构,提议了Mixture-of-Depths(MoD)标准,使得检修后采样历程中提速50%,成为Transformer架构提速升级的又一紧迫事件。

相同在本年,一家来自国内的东说念主工智能企业彩云科技,在国际机器学习范畴的顶级会议ICML(国际机器学习大会)上,发布全新大模子论文《Improving Transformers with Dynamically Composable Multi-Head Attention》。在该论文中,彩云科技团队初次发布DCFormer架构,并在基于DCFormer打造的模子DCPythia-6.9B上,齐全了在预检修困惑度和卑劣任务评估上齐优于开源Pythia-12B。这意味着,DCFormer模子在性能上,齐全了对Transformer模子1.7-2倍的提高。

11月13日,彩云科技在北京总部与媒体进行一场主题为“From Paper to App”的交流会。会上,彩云科技CEO袁行远,就通用大模子昔日进化之路,与东说念主工智能的落地场景等热门话题进行了交流,并厚爱推出了首款基于DCFormer架构建造的通用大模子云锦天章,与此同期,彩云科技旗下AI RPG平台彩云小梦,也成为首款基于DCFormer架构建造的AI居品。

只消模子服从和智能度提高 智力齐全真确的AGI

交流会现场,袁行远起先向参会者展示了一个ChatGPT o1的问答:“假定ChatGPT4每天反馈用户约2亿个苦求,破钞越过50万千瓦时的电力。假定全球聚集齐使用ChatGPT四肢拜访进口,ChatGPT每天破钞若干电力?另外按照这个速率发展下去,到2050年全球东说念主工智能的耗电量会达到现在地球发电才略的若干倍?”ChatGPT o1给出的谜底是,“到2050年,全球东说念主工智能的耗电量可能会达到现在地球发电才略的8倍”。

相同的问题,在本年2月份的寰宇政府峰会上,英伟达CEO黄仁勋有更为夸张的表述,“假定狡计机的速率历久不会变快,咱们可能需要14个不同的行星、3个不同星系、4个太阳为这一切(AI)提供燃料。”AI对动力的宏大需求在业内照旧是共鸣,英伟达尽力于通过提高硬件来提高AI服从,降粗劣耗;而袁行远则合计,改善大模子底层架构,提高东说念主工智能运行服从,是改变AI动力困局的更优旅途。

“Scaling Law告诉咱们,跟着算力的提高,模子更大、数据更多,模子成果会越来越好,但与之相应的,能耗也会越来越高,在Scaling Law失效,东说念主工智能齐全之前,概况咱们地球的动力就照旧无法支抓了。”袁行远示意,“没灵验率的提高,AI即是虚无飘渺。”

彩云科技团队构建DCFormer框架,提议可动态组合的多头注目力(DCMHA),替换Transformer中枢组件多头注目力模块(MHA),根除了MHA注目力头的查找遴荐回路和变换回路的固定绑定,让它们不错阐明输入动态组合,从压根上提高了模子的抒发才略,由此齐全了对Transformer架构1.7—2倍的性能提高。

本年的ICML会议上,彩云科技团队的3篇论文,在委派对等分为4.25-6.33的情况下,得回平均7分的高分,并成为国内唯二受邀参加维也纳ICML 2024登台演讲的企业,另一家则是华为。

袁行远示意:咱们的使命标明,Transformer架构距离“梦想模子架构”还有很大的提高空间,除了堆算力堆数据的“鼎力出遗址”道路,模子架构转换相同平坦大路。往小了说,在大模子范畴,期骗服从更高的模子架构,小公司也不错在与寰宇顶级东说念主工智能企业的抵挡中取得上风。往大了说,模子服从的提高,不错灵验地镌汰东说念主工智能升级迭代的资本,加快AI时期的到来。

云锦天章问世 首个基于DCFormer架构的通用大模子

四肢国内最早作念LLM(大言语模子)的公司之一,彩云科技在2017年就照旧驱动作念NLP和大模子方面的使命。现在,彩云科技旗下有彩云天气、彩云小梦、彩云小译三款面向C端用户的AI居品,是国内为数未几能够齐全盈利的东说念主工智能公司。

“寰宇最强的演义续写通用模子。”交流会上,袁行远向全球展示了首个基于DCFormer架构的通用大模子云锦天章。“这个谚语是譬如著述极为精巧、华好意思,和咱们的大模子想要齐全的成果有共通之处。”袁行远先容,云锦天章不错齐全在臆造寰宇不雅的基础上,赋予演义东说念主物编程、数学等基础才略,不错高速针对大批笔墨进行扩写、缩写,针对著述立场进行大容量更换,同期兼具其他模子的问答、数学、编程等基础才略。

而在应用端,领有四百万用户的彩云小梦,也迎来了基于全新DCFormer架构的V.3.5版块。与之前的版块比较,彩云小梦V3.5全体运动性和连贯性提高了20%,支抓前文长度由2000字提高至10000字,故事配景设定最长长度高达10000字。“这意味着,在故事创作或者与东说念主工智能对话中,东说念主工智能能够记取之前发生的事情,记取之前故事里发生的细节,东说念主物牢记我方明确的指标,何况会阐明剧情实时进行反念念修正。在作念到自主创作的同期,发散性络续,不会天马行空,东说念主物特性前后一致,故事逻辑性更强。”

“深度对话,超长记念,逻辑明晰。”袁行远转头彩云小梦V3.5的特征,“咱们的指标是为用户打造指尖伴侣定制虚幻。”袁行远示意,彩云小梦的用户单次使用时长,累计使用时长在同类居品中齐处于遥遥最初的地位,“对话越过400句,你会发现彩云小梦真确的魔力。”

袁行远先容,公司接下来将连接加大对DCFormer的联想和过问:“一方面有温情‘海外作念工夫层,国内作念应用层’刻板印象的情感地方,一方面亦然为公司自有居品疏漏市集竞争,齐全快速迭代升级和才略最初的试验需要。”

— 完 —

量子位 QbitAI · 头条号签

转机咱们,第一时候获知前沿科技动态约