生成式AI与存储技术协同演进:从架构创新到产业落地
大数据时代,存储与生成式AI的协同演进成为推动技术发展的重要趋势。2022年11月,ChatGPT的横空出世加速了生成式AI的商用落地。但谁都不曾想到,第二波引爆AI大模型的,竟是中国AI创企DeepSeek。2025年初,DeepSeek-R1意外走红,该模型实施“错峰降价”和“开源策略”,此举大幅降低了企业部署AI的门槛。
AI的基石是数据基础设施,存储是存力基础设施的核心组成部分,利用高效数据存储与管理,支撑模型训练、推理优化及多模态应用落地。从ChatGPT的存储密集型挑战,到DeepSeek-R1的存储优化突破,生成式AI正通过架构创新与开源生态,推动存储资源的高效利用与规模化部署。
AI降本增效驱动存储协同创新
DeepSeek CEO在今年2月公开表示,DeepSeek-R1基于动态稀疏训练和混合专家架构(MoE),通过减少冗余参数存储和优化计算路径,在缓存命中场景下实现理论成本的下限为0.14美元/百万输入tokens,实际成本可能因任务复杂度波动。而GPT-4 Turbo、Claude 3、LLaMA3等其他模型在缓存命中场景下的输入成本大致在0.56美元/百万tokens至9.8美元/百万tokens不等。
随着大模型成本大幅度降低,AI技术向中小企业的渗透也得以加速。DeepSeek-R1在Hugging Face发布一个月左右,其累计下载量就突破了1,000万次。IDC中国研究经理程荫对外表示,DeepSeek引领基础大模型开启另一开发新范式——以一系列创新优化技术与手段降低成本和复杂性,从而降低门槛。
一方面,AI企业希望能通过算力资源优化及模型轻量化技术,系统性降低AI开发与部署成本;另一方面,随着边缘AI加速落地,边缘设备激增也导致分布式数据存储的需求上升。市场研究机构Omdia指出,AI技术的快速发展正在推动存储设备市场的增长。预计到2029年,全球存储设备出货量将以12.5%的复合年增长率(CAGR)持续增长,主要得益于AI代理部署和私人数据增强训练带来的数据中心存储需求激增。
而存储系统也正通过高密度存储方案和低延时数据管理,为生成式AI提供高效训练、推理优化及多模态应用落地的“存力底座”,驱动模型性能与成本效率的平衡。与此同时,生成式AI的加速商用,也在驱动存储厂商加速推进高密度存储架构升级与毫秒级低延时硬件创新。
如今,存储厂商正通过介质创新、架构重构和算法优化等手段,系统性突破高密度与低延时的技术瓶颈,为百亿级参数模型的规模化商用提供底层支撑。
在介质创新方面,存储厂商通过热辅助磁记录(HAMR)技术、QLC SSD与高带宽存储器(HBM)来实现。
- HAMR通过激光瞬时加热盘片局部区域,降低磁介质矫顽力,实现纳米级磁颗粒的稳定排列。比如,希捷HAMR硬盘当前商用产品单碟容量为3至3.2TB,实验室目标为5TB及以上,是AI数据中心冷数据存储的性价比方案。
- QLC通过4bit/cell单元结合3D堆叠工艺,理论上其单位面积容量较TLC提升三成左右。目前,三星、铠侠、美光、闪迪等存储巨头均针对QLC SSD有布局。
- HBM通过硅通孔(TSV)技术堆叠DRAM芯片,结合2.5D先进封装,以低频率实现高通道宽度,兼具高带宽、高容量与低功耗特性,如今已广泛应用于数据中心、AI训练等高算力场景。自2016年推出以来,HBM历经了多次迭代,现在的HBM3E将传输速度提升至8Gbps,容量扩展至24GB(通过12层堆叠实现)。
在架构重构方面,分布式扩展与存算一体架构已成为重要路径。分布式网络存储系统采用可扩展的系统结构,利用多台存储服务器分担存储负荷,利用位置服务器定位存储信息,它不但提高了系统的可靠性、可用性和存取效率,还易于扩展;存算一体架构是指将传统以计算为中心的架构转变为以数据为中心的架构,直接利用存储器进行数据处理,从而把数据存储与计算融合在同一芯片中,极大提高计算并行度与能量效率,特别适用于以可穿戴设备、移动设备、智能家居等场景为主的深度学习神经网络领域。
在算法层面,存储厂商可以通过数据编织(Data Fabric)和近数据处理(NDP)来优化性能。数据编织旨在通过逻辑层面的数据整合与加工,打破物理集中的局限,实现数据的无缝共享与高效利用。近数据处理技术是指利用存储控制器的计算能力,执行与数据存取紧密相关的任务,在减少数据迁移的同时,具有低延迟、高可扩展性和低功耗等优点。
通过采用这些技术,企业可以提升数据处理和分析的效率,达到节约系统资源,降低时延和能耗的目的。具体案例包括,华为通过数据编织技术,可实现全局元数据智能调度,保障百亿参数模型训练连续性;Nvidia GPUDirect存储技术结合RDMA与NVMe-oF协议,支持数据直传GPU显存,减少推理延迟。
由此可见,AI技术的降本增效与存储需求的指数级增长形成双向驱动,倒逼存储技术创新成为全行业智能化升级的底层刚需。
从数据仓库升级至智能数据管理平台
在存储技术与生成式AI协同演进的过程中,存储系统正从被动数据仓库向智能数据管理平台演进,通过软件定义存储、分布式架构优化和实时分析能力,成为支撑AI计算的高效数据调度中心。如今,存储系统通过AI赋能的动态优化机制,实现了资源与计算需求的协同。
单个千亿参数的大语言模型在训练过程中,需要PB级的数据存储与处理能力。在模型迭代过程中产生的增量数据,也需要高性能闪存来提供实时读写保障。同时,文本生成、图像渲染、视频合成等场景的并发处理,也对存储系统提出了更高的要求。目前,企业级SSD为了满足高IOPS(每秒输入输出操作次数)和低延迟的特性,正朝着30TB+的大容量方向发展。
此外,AI服务器架构升级也在催生新型存储方案。比如,存算一体架构打破传统“计算-存储”分离模式,通过硬件级协同加速AI推理效率,使存储介质直接参与计算任务的预处理与中间结果缓存。又如,智能分层存储让热数据采用3D NAND闪存实现毫秒级响应,而冷数据依托QLC技术提升单盘容量、降低综合存储成本。
再者,多元化市场需求也在驱动存储技术创新向两个方向突破——基础物理层能效优化与场景化定制能力强化。能效优化技术包括通过3D TLC闪存电荷捕获层梯度掺杂设计提升数据稳定性,结合动态功耗管理技术,边缘设备在非连续读写模式下综合功耗可降至1.5W/TB;在场景化定制能力方面,包括车规级存储基于AEC-Q100标准实现宽温耐受(-40℃至125℃),并通过LPDDR5接口与多芯片冗余架构支持高并发数据处理。
因此,可以说存储系统正升级为AI基础设施的核心支撑组件,实现动态数据治理、存算协同加速、AI增强优化的三大能力跃迁——通过数据编织与智能分层技术,支撑多模态数据的实时调度与价值挖掘;基于训推一体化架构与近存储计算,缩短AI任务端到端处理时延;利用模型训练特征反馈驱动存储资源动态分配,实现性能、成本与能耗的平衡。
存储巨头的产品矩阵与全场景覆盖
面对越来越多的存储需求,行业领军企业当然不会错过这难得的商机。这些企业通过技术分化与全场景产品覆盖(云端高算力、边缘低成本、端侧轻量化),去构建适配AI时代需求的完整解决方案。我们也看到,存储厂商正通过构建更全面的产品矩阵,覆盖从云端训练到边缘推理的全场景需求。预计该组合方案将提升服务器的单位存储密度,优化综合能效比。
“市场对存储器提出了大容量化、高性能化、低功耗化的要求,顾客对存储器的需求也呈现多元化,为此我们将推出最优化组合的产品。”铠侠电子(中国)有限公司技术执行官户谷得之对《国际电子商情》表示,在用于大规模语言模型开发、学习、推论的AI服务器方面,市场对闪存、SSD的需求有望迅猛增长。
铠侠为应对AI驱动的存储性能需求,正在加速CBA技术(CMOS直接键合存储阵列)在第十代3D NAND闪存中的应用。其第十代3D NAND通过CBA技术独立优化CMOS与存储阵列晶圆,结合Toggle DDR6.0接口与SCA协议,NAND I/O接接口速度提升33%至4.8Gb/s,其通过优化电路设计降低动态功耗,并基于高密度3D堆叠技术(如332层)推出适配数据中心的QLC架构存储方案。
三星、SK海力士、美光也同属存储产业链上游核心供应商,它们在市场定位上与铠侠的业务侧重与技术路径存在差异。三星通过垂直封装技术优化高带宽计算市场,并持续引领消费级DRAM技术发展;SK海力士正聚焦HBM3E堆叠技术,支撑AI服务器近存计算需求,并探索汽车与移动端HBM应用;美光基于HBM3E与低功耗DRAM强化边缘计算与车载存储场景的成本优势。
存储巨头的差异化技术布局本质上是面向AI驱动的数据基础设施变革所作出的战略响应。在云端,通过存算一体架构与先进封装技术提升存储密度,支撑大模型训练需求;在边缘,基于低功耗DRAM与动态功耗管理技术适配分布式推理场景;在端侧,通过移动HBM,如三星的LPW DRAM,与高能效接口协议提升终端响应效率,兼顾功耗与性能。这种技术分化推动存储架构从单一性能指标转向多场景协同,形成覆盖“云边端”的互补生态,为AI算力与存储密度的协同优化奠定硬件基础。
不过,在数据中心和AI领域,存储技术通过PCIe 5.0接口与存算协同架构(如HBM3E与GPU的高效连接)来优化性能,QLC技术尚未成为核心支撑——在移动终端,存储密度提升依赖TLC技术,QLC的应用仍受限。所幸的是,目前已经有许多存储厂商在推动QLC技术的商用。
在协议与接口方面,消费级市场处于高端领域渗透阶段,但PCIe 5.0受限于成本与散热,还待进一步普及渗透。如今,存储业内人士普遍认为,2025年PCIe 5.0技术从底层硬件到应用生态已经成熟,预计在今年内我们有望看到更多PCIe 5.0 SSD商用,其覆盖场景从消费级扩展到企业级。
具体来看,PCIe 5.0固态硬盘虽自2022年逐步上市,但其早期受限于存储主控工艺落后、高功耗与散热难题,导致消费级产品长期处于“残血”状态。尽管2025年新一代存储主控通过工艺优化和散热设计改进,使性能逐步接近理论值,但成本高昂与终端用户需求不足仍制约普及率。因此,行业预测消费级市场需待主控成本下降、散热方案成熟才能全面铺开。
存储行业面临ESG转型
除了存储技术层面的创新与升级之外,我们也看到,AI的进一步渗透也带来了更多的电能的消耗。目前,AI的电能消耗已从单一模型训练扩展至全生命周期,涵盖推理、部署和持续优化环节。随着算力需求指数级增长,能源效率优化与清洁能源整合将成为平衡技术进步与可持续发展的关键。
早在2022年,数据中心用电量已占全球电力消耗的1%-1.5%,国际能源署(IEA)预测到2026年这一比例可能翻倍至2%。AI算力需求激增或使2030年突破3%。另外,生成式AI的爆发式增长,意外成为存储技术迭代的“压力测试器”。目前,大模型训练单次耗电超小型核电站单日发电量,其中存储系统能耗占比10%至15%(参考谷歌透露的其用于AI训练的能量消耗占总用电量数据。)
在全球数据中心能耗激增与欧盟碳关税政策的双重压力下,存储行业正掀起一场静默却深刻的变革。头部存储企业不再满足于单纯的技术参数竞争,而是将绿色生产、能效优化与AI算力需求深度融合,试图在商业价值与社会责任之间找到平衡点。而这场变革的起点,是存储密度的跃升与能耗的“精准瘦身”。比如,美光方面宣称,其1β工艺HBM3E比竞品的功耗降低30%,适配高算力GPU。
此外,绿色生产体系的构建,让半导体封测厂从耗能大户转型为低碳标杆。以美光在西安的封测厂为例,为了实现更高的环境目标,美光制定了四个2025年的量化指标,包括碳排放的显著减排、可再生能源的全面使用、水资源的有效保护,以及废弃物的资源化和零填埋。同时,美光还积极部署了多项可持续发展项目,在其西安工厂引入自动化技术、配备先进制程控制系统等,这些举措不仅提高了生产效率,还显著减少了碳排放。
据户谷得之介绍,铠侠以3D闪存的大容量化、高性能化为目标,正在推进AI、数字社会不可或缺的新概念半导体存储器的研发,以满足未来在计算机、存储系统领域对半导体的需求。“为此,我们将推进新结构的高速存储器、SCM的研发工作,并推进半导体产品的节能化。”铠侠开发的低功耗SCM内存,通过减少数据“折返跑”提升推理环节的能效。
欧盟碳关税也在加速“存储即服务”模式向高密度、高能效升级,即使该模式技术基础已存在多年。总的来看,这是一种由公司向个人或企业提供技术专业知识和存储空间的商业模式。当存储从固定资产变为按需购买的服务,整个产业的商业逻辑正在被重写。
在这场静悄悄的革命中,存储设备正从“数据仓库”进化为“减碳引擎”。技术的每一次突破,都在为地球的碳账户存入一笔绿色资产。或许未来某天,人们选购存储产品时,能效标签的重要性将超越容量参数,就像现在家电市场的能效等级一样成为消费共识。这将不仅是技术的胜利,更是人类对可持续发展的一次集体投票。
中国引领存储与生成式AI协同创新
值得注意的是,在数字化浪潮席卷全球的当下,中国正以前瞻性布局和系统性规划,引领存储技术与生成式AI的协同创新迈向新高度。
在国家层面,工信部为存储技术与生成式AI的协同发展提供了顶层设计框架——“算力强基揭榜行动”从国家战略层面明确存储系统作为“动态决策单元”的定位,要求通过多介质存储管理与跨域资源协同技术实现算力与存储效能的全链路闭环优化。
此外,由存储产业技术创新战略联盟和中国电子技术标准化研究院等20多家学研机构联合发布的《2025年AIGC数据存储技术研究报告》系统性论证了存储系统从静态数据承载向“数据处理-训练-推理-归档”全链路闭环的转型路径,并通过高校科研平台等案例验证技术落地效果,支撑AI训练推理全流程效能跃升。
这些举措为存储技术与生成式AI的协同发展注入了强大动力,标志着中国在这一领域迈出了坚实步伐。未来,随着这些顶层设计的逐步落地和企业实践的深入推进,中国有望在存储技术与生成式AI的融合创新中取得更多突破,为全球科技发展贡献更多中国智慧和力量。