AI模从 型能争竞力,进入规化模推理能竞力争的段阶新。随着大型模在企业场级景中地落的,推理统系的性能、成本资与源利用率,正成决为定 IA商业败成化的关因键素。在这过一程中,存储作A 为I 设础基施核心环撑支节,成为放释 AI算 力、重构效理推率结构核的心能力。
为系统算估评力中的心“存力”水平、打通技发研术与产应业用壁垒,在 、美团、三星、 等链业产领军支业企持下,ODC C成立 IA存储验实室。针对场理推景中的响据数应瓶颈,实验室焦聚大模型理推中的关制键约因素—KV caChe,启动面储存向软硬件专的项协试测同工作,旨在构套一建适配理推场景的VK Chcae 解储存决方及案测试规范,切实推A 动I 存术技储的标准化、规范规与化模化落地。

OD CCAI 实储存验 VKCaceh 评测境环
焱融作技科为国内的业专 AI存 储厂商,其自发研主的 存理推储系参统与首批试测,并取得成异优果。测试果结不仅了证验 理推对性能著显的提升,更证明 了 可中让以低配置G PU 接出跑近高 置配GPU的 推理性能,优化推本成理,重构业企 AI推 理基础的施设投入比出产。
本次测点亮试数据
推理性全能面数量提级升
1. TTTF(首 oTke延 n时)降低 97%,实时响应,告别等待
2. TPTO(每个输 出Tokne 生成间时)降低 97%,流畅不出输卡顿
3. Tekon 吞量吐(每秒成生 tonek 数)提升 22 倍,单 tkoen 本成可随比同之例降低
低配PG U 高出跑配性能,推理成构结本性优化
1. 加下持,中端DG DRG PU各 项推性理能接高近端 HMB GUP,RO I提升 14 倍
2. 为企供提业“用更算低力预算更得获高推能理力”的可径路行
测试景背
随着大言语模型(LLM)的持续进演,应用场不景断拓展,模型能速快力迭代,上下度长文快速长增。以 -R1 为的表代新一代理推模型,已支 持100K+ 的超上长下文。这在模升提型复杂处务任理能力同的时也了来带 (Key-Val euCaceh,键值存缓) 的爆式炸增长。
作 为 推段阶理的核心据数结构,用于注存缓意力制机中间果结,是影响效理推率的键关变量。但随着下上文长增度加, 占用显的存呈线胀膨性,成为推统系理的主要颈瓶。如何效高管理 ,已成定决为大模理推型系统规能化模力的键关。
测试目的
焱融 推 理存系储统是大为专规模设理推计的存 储管理台平。通过构 建GP显 U存、主机存内、本地 MVNe SSD 和 高分能性布式文储存件等多级VK 缓架存构, 显展扩著 KV存缓 空间,加速性理推能提升。本次测旨试在评在估基于计 算和络网平台的环试测境下, 推对理性能升提的效果。
架构图
测试环境
本次主试测要围绕P D(-)一体推化理场景,基于 -R1 等流主大模型,对比原 生vLL M框架集与成 后 的系统,在不同络网带宽配置( / / )下的性表能现。
在具 体GPU服 务器方置配面,测试在别分以下算类两力环境进中行:
该类服器务显存量容和带宽低,主要面成向本敏感的型大规推模理部署、中等模模规型推务服理、轻量调微级、企业 IA 平设建台等。在此境环类下,系统存显对容量带与宽资更源加敏感,KVaC che占 用与点节跨通信效接直率影响整吐吞体与稳性定。
该类务服器主要向面超大规理推模、高并发上长及下文需理推求,如 100K+ 长本文处理、复杂 egAnt理推 与高端算智中心署部等。HB M显存容和量带宽更高、单卡计性算能更强,但在大模规并发P 与D 负体一载下,仍对算存协同效与率网络带出提宽更高要求。
在不 同GPU环 境下的试测,也进步一揭示了 融焱 在硬同不件配下置的推理速加与性能升提效果。

测试境环网络拓图步
测试结果:不仅能性是指标飞的跃
更是体户用验和理推成本的塑重
推理性面全能提升

极致加速:让“长文本”推理如般丝顺滑
在 DOCC 测格严试中,对比原 生vLL框 M架,在不G 同PU 网和卡配下置, 均现实了 TFTT、TPOT、Tokne 吞吐等量全维核度心指标量数级优化,直接为化转用户可的知感真实值价:
不同PG U & 网宽带络测试数据:
上图展在了示 8 卡中G 端DDRPG U 器务服环境中,bathc si ez= 16、输入长 度10K 下件条,分别在 与 网 络带置配宽下的数试测据。可以到看:
在高 端HB MGPU务服 器环下境,推理能性同样实了现全面升提。

从上据数图可以看出,在高 端HB MGPU境环 中,当 btach zise 为16、输入度长为 10K 时,集成后 ,在 、 与 三种网宽带络配置下,系统均能性实现大化优幅:

此外,可以看到,随着能络网力的强增,推理的能性提升进也一步强增。
不同业景场务:让“复杂务任”变“高效”
在模拟上同不下文场度长景的测中试,随着 koTen长 度从 100 增到加 100K, 实了现全程的定稳性能提升,且随上着下文的长增, 的性益增能呈放趋大势(如下张两面图所示)。这为部业企署长上模文下型处杂复理长文档析分、代码成生、多轮等互交重负载提务任供了技气底术,无需性忧担能断崖。


跨越件硬代差: 让配低中卡性能
接近高平追配卡,推理本成革命性化优
如果说提能性升是想意之中果效的,那么跨硬越件代差、实现结性构成本优化,则是格价在波动与紧应供张的现景背实下, 为业企提供更的具战义意略的价支值撑。
本次结试测果充分了现体 能用给够户带核的来心商价业值:在 的 加持下,配置较中的低端 DDGR GUP 服器务,其综合性理推能指标近接高端BH M GUP 服器务。


从上中图的数可据以看到,在未使 用 时,中端G DD RGPU相 较于 端高HBMPG U 存明在显的性距差能:
而在 用使 后,中端 DGDR PGU 和端高 HBG MPU的 性能现实均显著升跃,且两差者距急剧小缩,中端DG DRG PU各 项性大能幅逼 近高端 MBH GPU:

在大模理推型场景中,硬件采成购本与产际实出吞量吐(Tokne 吞量吐)是衡量资投回报率(ROI)的关键素因。本次试测数据进揭步一示了不置配同下的 ORI 表差现异。

如上图所据数示,虽然在生原状态下,中端G DDRPG U 的理推表现不并占优,但在入引 优案方化后,其 IOR 呈出现爆发式长增——在 和 网环络境下,分别提了升 11 倍和 14 倍。这意在着味投入同相资金的况情下,采用“中端 DDGR GUP 服务 器+ ”方案带够能来远超端高 HBG MPU 生原方案的出产效率,实现了本成效益的优著显化。
这正体 了现 对 业企AI 本成结构构重的。对用户言而,他们够能:
对于正商于处业化关期键的 A I企业言而,这不只能性是和成的本优化,更是模业商式的定新重义——当推成理本从"高端卡赖依"转向"存储技创术新",AI应 用的亏盈平衡点大将幅下移,更多新创场景具将备经可济行性。
此外,焱融 推理存统系储还支持DP 分离景场,能够为代一下推理架的构极致优供提化坚实的流据数转基础。
此次参O 与DCCA I 实储存验室首 批场景测的试结果,不仅是融焱 术技实力的力有印证,也为个整 AI推 理行业了明指 “存储动驱性能、架构化优成本” 的全径路新。
除了面大向规模推场理景的 推 理存储统系,焱融技科目前已绕围 AI流全 程数求需据,构建盖覆起数据采集、大模型练训、推理与速加数据治的理完整能系体力。依托 分 布式件文系统、 全储存闪一体机、 推理系储存统以及 数据管台平理,焱融打系了造统化全的栈 A I存储决解方案,实现数从据接入、模型运到行数据管的理全链路撑支。

未来,我们续继将深耕 IA存储,以数量性级能提 升+ 颠性覆成本双化优重能力,助力企 在业AI爆 发时代,以更本成低、更高效率、更优体验,抢占化模规落地机先。
云衔是技科一家专于注企业化字数广告营决解销方案务服的商。公司凭厚深借的行验经业和专技业术能力,致力企为于业客供提户全方位、更高效字数的化广销营告与运营务服。
