万卡算力和万亿参数大模子时间,AI存储何时爆发?| ToB产业不雅察
发布日期:2024-12-16 06:50 点击次数:69
图片系AI生成
刻下,大模子最显耀的特征之一便是参数目呈指数级增长。把柄Scaling Law(圭臬定律)的表率,东谈主工智能神经蚁集的参数目越多,模子越大,关于常识的总结归纳和推理泛化才略就越强。因而,从ChatGPT出现考证了“表露”才略,到如今的两年里,业内紧要柔和的便是算力,怎样恣虐硬件算力,怎样故尽可能少的Token数目试验好一个模子。但在这一显耀挑战除外,数据量猛增带来的数据存储,可能是仅次于算力的另一大时刻难点。
大模子“卷”向存储年头,一位永恒柔和AI大模子应用的CTO与钛媒体APP换取中示意:“企业使用外部数据试验大模子,长文本是舛误想路之一。但问题是,长文本处理极端浪掷内存和硬件,因为模子试验和推理的内存变大,模子成果才气更好。这也导致在其每次查询的资本高于GPT-4,此后者基于微调。这不是ToB企业约略使命得其起的。”
他对钛媒体APP诠释:微软提倡了大模子的“不行能三角”,如果但愿模子的微调才略很强,那么模子参数就不会很大,或者小样本的学习才略不会很强。长文本的逻辑是,让小样本学习的才略变强,同期撤销微调,这么模子参数确定就会相应扩大。
彼时,正巧国内长文本高涨。除了最早的Kimi,阿里巴巴、百度、360等宽广厂商接踵晓喻进军长文本,从起先的可处理200万字高下文,迅速膨胀至1000万字长文本才略。而在这股高涨中,也通常留传了诸多待搞定的问题。
把柄时刻博客Medium上一位AI工程师Szymon Palucha的纪录:
以阿里开源的Qwen2-7B(7亿参数)大模子为例。面前GPU显存大小基本在80GB(以英伟达A100为例),那么如果拿不到更好的A100时,他把柄公式:参数模子内存=7B*32位=7B*32/8字节=28B字节=28GB,测算出运行该模子至少还需要28GB内存,这还不算推理历程中对存储产生的非凡支出。
为此,最简单的宗旨是缩短参数精度,因为当今多数大模子不错半精度使用,而不会显耀影响准确性。这意味着大模子在现实运行时,需要一定的内存或存储空间来存储和处理数据,大模子所需的内存量会把柄高下文窗口的大小而变化。窗口越大,所占用的内存也就越多。
钛媒体贯注到,这亦然当下大模子应用厂商在破解算力问题除外,遭受的另一大时刻困难点,客岁还莫得太多东谈主柔和——数据量猛增带来的数据存储、内存带宽、时延等一系列问题。况兼跟着需求的爆发,还是带来一些时刻侧家具侧的演进。
支捏万卡算力和万亿参数LLM,存储两谈槛面前公共的科技巨头齐在布局万卡算力集群和万亿参数范围的大模子试验,关于这些集群而言,高性能的预计、存储和蚁集不行偏废。从存储层面来看怎样提供撑捏?一是要至少达到TB级带宽、百万级IOPS的存储性能,将来可能会演变为数十TB、上亿级IOPS的需求;二是要培植数据跨域篡改、数据安全、数据可捏续性造访等才略。
归来往日两年间大模子带来的存储挑战,不错从三个阶段总结:
2022年头:大模子爆发初期,国内有卓绝100家的大模子公司运行迅速进行商场布局。在这个阶段,模子试验追求的便是“快”,通过IT基础设施的决策优化,灵验地培植GPU遵循,加快模子的试验并得回商场认同,即可霸占商场先机。
为此,模子试验的数据加载、模子试验历程中的断点续训要尽可能地缩短对预计时辰的占用,在万卡算力集群万亿参数的大模子的快速试验时,小于1分钟断点续训,需要存储提供TB级的带宽,同期小模子的试验推理则对IOPS提倡更高条目,存储系统需提供卓绝百万级的IOPS。
2023年底到2024年头:跟着模子在各行业落地的需求,在好多的行业场景里,行业数据穷乏蕴蓄,往日散布在各末端、地域数据的夸合同、夸地域高遵循分享整合。这就条目存储具备数据跨域篡改,通过异构纳管收尾全局定名空间不停,培植数据汇集、分析的遵循。
2024年下半年运行:模子的简直落地,对数据质地条目更高,语料公司需要将数据汇集并进行精加工。大模子的行业化落地历程中,为了培植通用模子的专科化才略,试验出精度更高的模子,条目有更高质地的数据集。为得回高质地数据,原始数据要经过粗加工、精加工等多个功课步调。这个阶段,对数据的安全存储和数据可捏续性造访提倡了更高条目。
海浪信息存储家具线副总司理刘希猛指出,模子参数目、试验数据量、GPU算力、网卡性能、GPU范围近些年均在迅速增长,原有存储不及以支吾AI的快速发展。不论是海量试验数据加载、PB级查验点断点续训,照旧高并发推理问答等,存储性能胜仗决定了系数这个词试验推理历程中的GPU诓骗率。极端在万卡集群范围下,较差的存储性能会严重加多GPU闲置时辰,导致模子落地困难、业务资本剧增。因此,当代存储还是由传统的数据载体和数据仓储,转机为AI发展的舛误组件。存储系统正渐渐演进到提供更高的隐约量,更低的时延,更高效的数据不停。
AI存储何时爆发?既然针对AI场景的存储系统在前几年并莫得得回太多嗜好,从需求侧,何时会迎来新的爆发点?“往日一年,存储的增量商场基本一谈来自于AI场景。”刘希猛对钛媒体APP诠释。
如果将将来的AI商场分为简单两类:一类是AI产业化的商场,在AI产业化进程中,更多的柔和点可能聚积在了模子试验,紧随自后的是语料出产,然后是算法优化。那么,存储起先就会在模子试验、语料出产规模产生价值,极端是语料,从本年运行就已有迹象,并在接下来两年里收尾快速增长。
在刘希猛看来,从面前来看,大模子试验中最紧缺的是数据,各行业在可能齐会运行入部下手蚁集各自规模的数据,并进行相应的数据加工处理。算力方面,尽管有东谈主觉得算力配置已接近泡沫阶段,以致有些使劲过猛。这一判断可能在一定程度上具有标的性的正确性。接下来,算力的发展可能会插足一个相对安逸的阶段。
第二类是产业的AI化,即大模子简直落地到行业并产业现实价值,不错不雅察到一些规模还是先行一步。举例,金融规模的量化交往、证券交往,在科研规模,AI也运行被用来扶植科研奇迹。此外,制造业亦然AI应用的一个艰辛规模。这两方面齐会对AI存储商场带来比拟好的促进作用。
刘希猛还指出,刻下AI存储濒临的挑战尚未十足搞定,若连接上前发展,其实照旧要从性能、遵循以及可靠性三方面源头。一是高性能,以搞定搀杂AI负载对存储读写带宽、IOPS,以及低时延的条目;二是高遵循,通过存储支捏文献、对象、大数据等非结构化合同会通互通,全局定名空间等,减少多份数据重叠存储,以及数据夸合同、夸区域、夸系统篡改检索的问题;三是高韧性,通过故障的快速复原、故障前的精确瞻望缩短系统格外时的性能影响,以及服务的连络性,同期强化数据保护与安全驻守才略,保证数据的完好、一致、捏续可造访。
面前国表里在建千卡集群、万卡集群,且将来可能还会出现更大范围的集群。想要达到同等算力,如果继承国产GPU,可能需要不仅达到十万卡范围,而是更为宽广的集群。
跟着集群范围的扩大,除了存储自己濒临的挑战外,还将带来存储举座决策的挑战。这波及从存储到前端蚁集,再到算力节点的系数这个词链条。其中,蚁集的禁受成为一个舛误问题。国内之是以更多地使用RoCE蚁集,是因为国内的集群范围需求更大,而IB蚁集在扩展范围上有所纵容。RoCE蚁集与存储及表层之间的协同性,尤其是超大范围集群的协同性上,可能会成为新的柔和点。
钛媒体贯注到,RDMA(Remote Direct Memory Access)全称而已内存胜仗造访时刻,是一种数据传输时刻。面前算力集群对蚁集的配置在2022年之前基本会禁受“二层诬捏蚁集”,跟着AI应用的爆发,2023年于今还是在尝试智能无损蚁集和以太网,况兼时时围绕性能、资本、生态系统和兼容性等方面进行量度。RoCE便是一项基于以太网的RDMA时刻。
甲骨文公司中国区时刻洽商部高等总监嵇小峰与钛媒体APP换取中通常指出,大范围集群除了GPU数目多除外,同期具备蚁集低延时和高带宽的特质。从基础设施角度来看,大批GPU聚积部署会带来供电和冷却方面的巨大挑战。同期,在试验历程中,对存储的需求通常至关艰辛。因为试验时时波及泛滥成灾块GPU的协同功课,一朝有少数GPU(如一块或两块)出现故障,系数这个词试验进程可能会因此延误。
举例,本年9月亮相的Oracle Zettascale算力集群,面前可提供13万多颗GPU,格外于可提供2.4 ZFLOPS的云表算力。为进一步增强蚁集的低蔓延和高带宽,Oracle继承支捏两种蚁集合同:InfiniBand和RoCEv2,这是一种增强版的以太网。这两种时刻均具备一种中枢绕行机制,能让蚁集流量避让老例旅途中必须穿越的某些组件,以收尾更迅速的传输至主视力。这么的贪图促进了数据更快地抵达GPU,进而培植了处理遵循。
跟着AI存储需求的陆续表露,包括GPU、模子架构、存储搞定决策及蚁集时刻的各大厂商,正纷纷加快布局,死力在构建超大范围集群的海浪中霸占先机。(本文首发于钛媒体APP,作家 | 杨丽,剪辑 | 盖虹达)