栏目分类
热点资讯
你的位置:科技前沿网 > 新兴技术 > AI落地千行百业,存储痛点突显,波澜信息怎样助力AI向实?

新兴技术

AI落地千行百业,存储痛点突显,波澜信息怎样助力AI向实?

发布日期:2024-12-05 15:55    点击次数:50

AI落地千行百业,存储痛点突显,波澜信息怎样助力AI向实?

作家 | 陈骏达裁剪 | 漠影

AI期间,存储不仅是数据的栖息之地,更是AI模子西宾、落地进程中的坚实底座。

在AI开启的存储行业新周期中,繁密厂商已将带宽等性能方向卷至新的高度。干系词,这种追求似乎将AI这一复杂应用场景浮浅地“存储化”了。

履行上,AI对存储的需求远不啻于性能这一维度自己,更需要让存储“AI化”,存眷举座存储处理决策与AI应用场景的契合度。这少量,亦然环球唯独的AI/ML存储基准测试——MLPerf所存眷的骨子。

MLPerf存储基准测试面向AI/ML用户的痛点,即存储和诡计的均衡及两者的有用应用。干系词测试中存储架构的万般与存算节点的非尺度化,导致性能数据自己的参考价值有所着落。

在性能数据以外,有无另一方向不错更为准确地响应存储系统在AI场景的弘扬呢?MLPerf存储基准测试条件加快器应用率需达到90%或70%,在这一区间内调查节点所能支执的最大加快卡数,测试其能否尽可能跑满每个客户端的表面带宽,以已矣最好存储性能。

在MLPerf存储基准测试中,由于表面带宽是斡旋的,因此通盘厂商的处理决策均可归一化到汇集应用率这一方向上,进行相对客不雅的评估。汇集应用率的提高意味着资本的镌汰,算力潜能的更充分开释,存储与AI应用场景的契合度也越高。

本年9月,新一轮MLPerf存储基准测试收获发布,其中,中国企业波澜信息的漫衍式存储平台AS13000G7,在图像分割模子3D-UNet和天文体模子CosmoFlow以为8项测试中斩获5项最好收获。这一平台在汇集应用率上展现出20%傍边的上风,断层跳跃。

值得一提的是,本次MLPerf存储基准测试已升级至1.0版块,这一升级冷落了哪些新的条件,波澜信息又是怎样凭借其本事积淀与举座处理决策,赢得新版测试中的多项最好收获的呢?

一、MLPerf测试迎升级,存储助力AI算天文分图像

2018年,图灵奖得主大卫·帕特森(David Patterson)结伴斯坦福、哈佛等顶尖学术机构和谷歌、百度等AI行业头部企业,共同发起了MLCommons协会,同庚推出首款测试套件MLPerf,现在,该测试是影响力最广的海外AI性能基准评测之一。

▲图灵奖得主大卫·帕特森(图源:ACM)

MLPerf系列测试套件得到学界和产业界的凡俗认同。其中,MLPerf存储基准测试是挑升用于AI复杂负载下存储系统性能的测试套件,最大程度地模拟了AI任务确凿切负载,数据探访的pipeline、架构、软件栈均与履行西宾景观无异,已成为AI/ML模子开荒者选拔存储处理决策的泰斗参考依据。

▲波澜信息是MLCommons的首创成员之一(图源:MLCommons官网)

本次MLPerf存储基准测试1.0版块测试诱导了环球13家跳跃存储厂商和接洽机构的参与,测试内容也迎来要紧升级,回话了当下复杂AI应用场景对存储冷落的新需求。

一方面,存储系统的带宽峰值处理本事迎来新的挑战,测试止境存眷了在高性能GPU达到一定使用率的情况下,存储系统能为AI集群提供的举座带宽和单个节点的带宽。

另一方面,测试还强化了对漫衍式西宾的考验,止境存眷每个存储节点或者支执的GPU数目,以此来臆测用户在AI存储方面的投资效益。

在本次测试中,波澜信息使用3台AS13000G7平台搭建漫衍式存储集群,并配备ICFS自研漫衍式文献系统,参与了3D-UNet和CosmoFlow两个单项的测试。

行动图像分割规模最具影响力的AI模子,3D-UNet模子的测试中使用了海量的图像类非结构化数据,条件存储平台具备高带宽、低时延的特色,才能保证GPU的高效应用。CosmoFlow天放学分析模子参数目仅有10万-20万,如斯之小的模子对时延冷落了更高的条件。二者齐是典型的数据密集型应用。

在3D-UNet多客户端2评测任务中,波澜信息的存储平台处事于10个客户端264个加快器,集群团聚带宽达到360GB/s,单个存储节点的带宽高达120GB/s。

在天放学分析CosmoFlow单客户端2和多客户端2评测任务中,波澜信息的存储平台折柳提供了18 GB/s和52 GB/s的带宽最好收获。

二、契合AI使用场景,兼顾性能、效劳、韧性

波澜信息多项最好收获的背后,是其面向AI期间,提高存储平台性能、效劳和韧性的戮力。

性能层面,波澜自研漫衍式软件栈中的全新数控分离架构处理了漫衍式存储数据流在节点间流转的转提问题,减少东西向(节点间)数据转发量80%。这一性能的提高能匡助客户从简多数的存储资本,系统性价比也相应改善。

效劳层面,波澜信息通过多契约数据交融本事,处理了AI应用场景使用多种数据接入契约变成的存储效劳问题,最高可从简50%的数据存储空间。

韧性层面,为郁勃AI业务对执续性的条件,波澜信息的可靠性主动治理本事、AIOps系统故障预诡计法和敲诈软件检测本事,有用督察了建设故障和数据安全问题的出现。有关本事对硬盘故障的预计准确率达到98%,对敲诈软件的检测漏报率仅有0.029%。

怎样将本事整合落地,将本事方向转动为履行成果,最终形成齐全且适配AI场景的处理决策,则是确切造福AI行业客户的要道。

波澜信息与AI场景精致契合,凭借其居品场景化定制本事与熟练的AI场景处理决策本事,打造出了确切贴合AI需求的存储居品,为AI场景构建坚实的数据撑执平台。

以本次测试中3D-UNet加快器H多客户端下的测试铁心为例,波澜信息的多路并发透传本事有用减少了I/O操作中时时的荆棘文切换,镌汰单次I/O时延50%。本次测试的3D-UNet场景中,3节点存储撑执了1430个高并发读线程,诡计节点汇集应用率达到了72%。

汇集应用率的提高有用镌汰了汇集资源的豪侈。在客户端建立双网卡情况下,部分参赛处理决策仅有50%的汇集应用率,意味着整套决策实质上豪侈了近乎一整张网卡资源,大大增多了总体资本。

若在大模子西宾的万卡集群下,低汇集应用率变成的网卡资源的豪侈可能高达数千万级别,更无谓说建设扩容所激励的算力应用率着落、结伴线增多、运维复杂度提高等连锁资本效应。

关于本就资本腾贵的AI基础设施而言,任何不错削减的开支齐显得尤为要道。波澜信息存储处理决策在汇集应用率上的赫然上风,讲授了有关决策对AI场景的高度适配。

在执行中,波澜信息的存储处理决策也曾在互联网企业大模子西宾推理场景、大型AI算力中心与某国度要点实验室中落地。

举例,在大模子场景西宾中,波澜信息通过增多全闪存储匡助客户已矣效劳提高,将断电续训时期镌汰到分钟级别。新增20台全闪存储提高的效劳,相配于新增了10多台GPU处事器,从投资角度上来看,每100万存储投资相配于300万的GPU处事器投资。

而针对大模子推理场景中多文献契约特色,波澜信息的交融存储决策让客户从简了契约转动的时期,使得数据汇集准备时期从简30%,存储空间也大幅从简。

结语:生成式AI步入下半场,存储成AI向实要道

据工信部测算,到2035年,中国生成式AI的市集限度将打破30万亿元,制造业、医疗健康、电信行业和零卖业对生成式AI本事的采用率迎来较快增长。

2024年,生成式AI正往日所未有的速率走入千行百业。AI行业也曾由百模大战时期的“卷模子”,疗养为“卷场景、卷应用”,或将迎来下半场的角逐。

在AI向实发展的进度中,数据是结伴物理寰宇与数字寰宇的遑急桥梁,而存储行动数据的载体,执续在AI落地的执行中阐扬要道作用。