文章正文
算力在AI浪潮中的硬核力量,中国智算中心的瓶颈与突破

发布时间:2024-10-12

中国在用算力中心机架总规模超过830万标准机架,算力总规模达246Eflops2460万亿次浮点运算,位居世界前列,工业、教育、医疗、能源等多个领域算力应用项目超过1.3万个。

算力规模.png

中国信息通信研究院发布的《中国综合算力指数报告(2024)》显示,美国和中国算力基础设施增长居全球前列。我国58.3%的算力中心已连接到国家骨干网,为数据的高效传输提供了有力支撑。算力网络互联互通水平大幅提升,国家算力枢纽节点已全面实现20毫秒时延保障能力,全国65%的省市可以在5毫秒内接入一个算力数据集群。从省级行政区来看,综合算力指数排名前10位的依次是河北、广东、上海、江苏、北京、浙江、山东、山西、内蒙古和宁夏。其中,北京、上海、广东和江苏连续3年跻身前5位。

算力进展.jpg

算力指数.jpg

回顾整个2023年,中国GenAI进入发展元年,模型参数量持续扩大,训练任务所需单集群规模正从128集群向256集群演进。同时,随着头部GenAI产品的落地,智能算力需求爆发式增长。相比于2022年,2023年智算服务市场增长81.6亿元人民币。其中GenAI IaaS市场贡献59%,智算集成服务市场贡献38%,Non-GenAI IaaS仅贡献3%的增量。由于需求的快速变动以及所需基础设施的投资运营门槛较高,头部的科技企业更偏爱采用GenAI IaaS服务。

Iaas服务商.jpg

阿里云

无论是训练还是推理,大模型都离不开云。阿里巴巴集团CEO、阿里云智能集团董事长兼CEO吴泳铭提到,在新增算力市场上,超过50%的新需求由AI驱动产生,AI算力需求已经占据主流地位,这一趋势还会持续扩大。CPU主导的计算体系正在加速向GPU主导的计算体系转移,AI计算正在加速渗透千行百业。当前,行业前沿模型训练计算量每年增长4~5倍,中国AI算力规模2022~2027年复合增长率高达33.9%;模型参数以10倍速增长,模型数据集以50倍速增长,对存力也提出了更高需求。

自宣布“AI驱动、公共云优先”以来,阿里云大刀阔斧地进行投入AI基础设施建设,单网络集群已拓展至十万卡级别,正在从芯片、服务器、网络、存储到散热、供电、数据中心等方方面面,重新打造面向未来的AI先进基础设施。

阿里云新上线的磐久AI服务器,支持单机16卡、显存1.5T,并提供AI算法预测GPU故障,准确率达92%;阿里云ACS首次推出GPU容器算力,通过拓扑感知调度,实现计算亲和度和性能的提升;为AI设计的高性能网络架构HPN7.0,可稳定连接超过10万个GPU ,模型端到端训练性能提升10%以上;阿里云CPFS文件存储,数据吞吐20TB/s,为AI智算提供指数级扩展存储能力;人工智能平台PAI,已实现万卡级别的训练推理一体化弹性调度,AI算力有效利用率超90%。

阿里云.jpg

(APSARA云栖大会)


商汤

全国首个5A级智算中心诞生,在上海自贸区临港新片区,商汤智算中心通过理论算力、有效算力、算力能效、业务模型场景支持能力、加分项等5个维度的技术评测,获得5A级智算中心算力性能认证,成为国内智算中心建设的“样板间”。这个项目一期投资56亿元,主要建设园区智算大楼与科研行政大楼,用于AI智算中心平台硬件搭建、平台软件、平台管理系统和大模型应用等多领域研发。算力为14000 PFLOPS,远远超出立项规划的3740 PFLOPS算力总量。经过持续扩容,算力可支撑超过20个千亿参数超大模型同时训练,并支持万亿参数大模型的全生命周期生成。

在硬件技术上,智算中心实现了万卡的超大集群互联,并保持90%的加速效率。在训练稳定性上,具备超30天不间断训练AI大模型的能力;出现训练间断时,诊断恢复时长已缩短至半小时。

在软件技术上,商汤大装置与“日日新”大模型体系的集合,重构了算法的供给模式。通过提供“日日新”基础模型,各行各业的用户只需在此基础上进行微调或增量训练,就可以高效率地开发出符合自身需求的行业模型。这种服务实现了算法的基础设施化,与算力基础设施的服务配套,让国内各种行业大模型的开发更为高效、便捷。

商汤临港智算中心的服务器.jpg

(商汤临港智算中心服务器)

不过,国际数据公司(IDC)中国分析师杜昀龙表示“算力需求是很大,只不过现有类型无法满足用户需求。无论是适配方面还是性价比角度,都达不到客户的预期。”

如何解决智算中心成本过高的问题?

当前,AI大模型服务器算力需求提升,使得智算中心单机柜功率密度大幅度增长。在智算中心的运营上,电费占运营支出的60%以上,有企业测算,马斯克最近落成的10万卡AI集群“孟菲斯”一天的耗电,相当于北京东城区一天的电量。电费很大部分来自制冷产生的费用,优化制冷系统,已成为数据中心提高能源效率、降低成本的重要环节。

近日,京东云液冷服务器在2024中国算力大会上荣获“DC Tech 创新先锋”优秀成果奖,服务器采用EVAC 散热器及液冷技术,可使散热效能提升 50%;基于多元供电方案,在单机柜 20KW 的条件下,单机柜功耗 1 年可节省 8500 度电。

为应对GPU服务器高功耗、传统风冷机房改造升级等难题,京东云液冷服务器采用冷板式设计,能够支持多个平台的GPU共计 750W的功耗;整机部件采用模块化设计,灵活支持前置I/O或后置I/O,免工具维护,能够直接替换标准散热器,同时支持整机柜部署和传统机柜部署。液冷服务器已经成为智算中心内名副其实的节能降耗利器。

京东云.png

● 智算中心如何由“量”转“质”

高质量算力不能只关注芯片,还应从系统角度综合考虑满足实际应用。国家信息中心信息化和产业发展部主任单志广就提醒称,在一体化构建算力体系过程中,要避免重建设、轻需求,应以应用为导向,提高整个算力中心的利用度。

中国信息通信研究院云计算与大数据研究所总工程师郭亮称,“建设智算中心需要‘适度超前’,结合当地实际需求做整体的分析和预判。”

北电数智战略与市场负责人杨震表示,“长远来看,‘以终为始’地打造一个健康良性的智算中心商业闭环,或是更为关键和有效的方式。”如何以终为始打造智算中心的商业闭环,本质上还是发掘人工智能的应用场景,实现当地产业或企业智能化转型升级。比如,地方政府最初可把自身一些数据、场景释放出来,形成一些人工智能标杆,再进一步与当地产业、头部企业结合,将雪球越滚越大。

综上所述,中国算力产业在基础设施、技术创新以及产业应用上取得了长足的进步,但也面临着运营成本高、资源利用率不均衡等挑战。未来,智算中心的建设不仅要追求算力规模的扩展,还应注重系统性优化和应用导向。只有这样,算力基础设施才能在支持各行各业数字化转型中发挥更大作用,助力中国在全球科技创新竞争中取得更为显著的领先地位。

AI美图

AI图2.png



  • 观众报名
  • 申请展位
展会资讯 更多 >>

出海首站!世界智联网创新联盟(WAIA)圆满完成香港和新加坡论坛

揭秘,2025年IOTE国际物联网展巡展预告!

2024圆满落幕,全面解读,AGIC通用人工智能和IOTE 2024 深圳物联网展的展后报告!

会议回顾 | AI引领畜牧未来-数智赋能畜牧产业创新发展峰会在深圳成功召开

回顾 | 2024深圳(国际)通用人工智能大会开幕 全面助力人工智能先锋城市建设

展商资讯 更多 >>

并行科技邀您共聚2024AGIC深圳(国际)通用人工智能产业博览会

领驭科技将亮相AGIC深圳(国际)通用人工智能产业博览会,“瀚鹏AI”打造企业新质生产力

【IOTE】专注大中功率RFID读写器的推广—上海舜识将亮相IOTE国际物联网展

【IOTE】RFID智能硬件识别解决方案商—瑞弗艾迪将亮相IOTE国际物联网展

【IOTE】国内定制化物联设备与特种电子标签先驱品牌——鼎界物联将亮相IOTE国际物联网展

【IOTE】物联网应用专家—罗维尼科技将亮相IOTE国际物联网展

【IOTE】平头哥邀你相聚2024IOTE国际物联网展·深圳站

【IOTE】以位置服务为中心的物联网芯片及解决方案供应商—芯与物将亮相IOTE国际物联网展

【IOTE】专业天线服务厂商,一站式RFID方案解决商-东振技术将亮相IOTE国际物联网展

【IOTE】致力于有机半导体材料和器件的研发与商业化—追光科技将亮相IOTE国际物联网展

行业资讯 更多 >>

市场从Cat.1和NB过渡到Cat.1 bis,蜂窝芯企如何更新布局?

这个区给2万个垃圾桶装上RFID,判断居民是否有垃圾分类

AI创新|机器人先行者K2开始抢蓝领工作了、Hallo2可生成一小时高清4K视频、音频定制概览和后台播放……

净利暴涨2079%!通信市场正在回暖?

15万套!这家企业又获一激光雷达“线光斑发射模组”项目定点函

AI创新|机器人重走丝绸之路、无需水泥的建筑机器人、特斯拉无人出租、首个5A级智算中心……

拟募资4.88亿元,这家主营摄像头的公司IPO顺利过会

又一家国内厂商为低功耗IPC推出新WiFi6芯片

一CIS厂商官宣:5000万像素图像传感器产品量产出货!

硬科技和情感的碰撞,这类智能摄像机市场增长潜力几何?

粤ICP备05006090号-11版权所有©IOTE 物联网展始于2009 | 深圳市物联传媒有限公司
首页 观众报名
关于展会
联系我们

微信扫码
注册展会VIP观众

服务热线

18676385933

在线咨询

回到顶部

Baidu
map