有统计显示,算力规模前20的国家,有17个是全球排名前20的经济体。可见,数字经济发展水平与算力规模密切相关。有人说“得算力者得未来”,这话虽有些绝对,但不可否认,我们已进入算力时代。
当前科学发现的四个范式——实验验证、理论研究、计算科学、大数据分析和人工智能计算处理中,第三和第四范式都与算力密切相关。但这两种范式背后的算力不尽相同。一般认为,算力可分为三大类:高性能计算的算力(HPC算力或超算)、人工智能计算的算力(AI算力或智算)、数据中心的算力(通用算力)。在回答“哪类算力更适合建在西部”这个问题之前,需要了解这些算力的特点以及发展中面临的难题。
国内超算“花样”太多
超算是“国之重器”,它们被制造出来应对世界上最富有挑战性的计算问题。我国超算发展很快,曾经有3台超级计算机占据世界最快超算500强榜单的榜首。可以说,过去十年,我国在顶尖超算系统的研制和部署数量方面都处于国际领先行列。
我国超算应用也有很大进步。过去十年,我国科学家依托国内顶尖超算系统,多次入围高性能计算应用领域的国际最高奖“戈登贝尔奖”,并在2016年首次摘奖。此后,2017年、2021年再次获奖(2020年的戈登贝尔奖由中美科学家联合团队摘得,这支8人团队中有7张中国面孔)。
但超算的问题在哪儿?如何高效地将世界领先的计算能力转化为解决尖端科学与工程难题的能力,依然是挑战——这不是中国超算特有的问题,而是全球面临的共同问题,目前许多大型超算的建构选择异构路线更加大了这一鸿沟。
怎么办?超算基础软件是提升转换能力的关键之一。然而,超算软件所面临的环境并不好。目前,我国超算平台架构多样,应用移植和调优工作量大。国产超算的三类机器——神威、天河、曙光,都做得很好,但它们分属不同架构。一个超算软件要从一台机器移植到其他机器上非常难,移植成本也很高。
这背后的问题在于我国超算“花样”太多、种类太多。美国超算发展之初也是百花齐放,但现在基本上是CPU+GPU的异构高性能计算机。此外,国产超算平台支持复杂应用全流程计算的能力也亟待提高。
智算:面临“卡脖子”风险
2020年4月,国家发展改革委明确将AI纳入“新基建”范围。此后AI算力成为热门。AI计算机发展很快,国内也在建设很多智算中心。
智算大概有三类应用:图像检测和视频检索、博弈决策、自然语言处理。其中前两类应用在国民经济和信息安全保障等方面发挥巨大作用,但我认为它们都不需要太大的计算机。不过现在国内已有20个城市投建了AI计算中心,规模很大、价格不菲。它们如果被用来做自然语言处理还可以,但前两类应用并不需要。
自然语言处理类应用有4种:基于模型的语言翻译、人机交互、文本生成摘要、关键词创作。目前,AI正快速向大模型方向发展,因为参数数量增长很快,大概每3~4月就需要机器算力翻倍。
我国AI产业快速发展,预计我国2025年AI产业规模将超过4500亿元,带动产业规模超1.6万亿。但要注意的是,我国AI企业却面临巨大“卡脖子”风险。2021年我国AI服务器芯片总出货量100万片,但国产芯片出货量只有5万片,95%依赖进口。此外,AI算法和深度学习框架,几乎90%以上由他国开发。中国99.5%的在校理工科大学生学习的是国外的AI技术,学习自主AI技术的仅占0.5%。
目前,三类算力——HPC、智能计算机、数据中心是分开的。我希望“HPC+AI+大数据”能够融合。过去,HPC程序从头到尾基本上是解方程这类“普通玩法”,但如今HPC面临的应用问题在中间可能会有AI计算需求。
“东数西算”:并网和调度是两大难题
“东数西算”的出发点是把东部的数据流动到西部存储和计算。东部产生的数据比较多,希望机器也在东部存储、计算,但计算机不能全在东部,这不利于“碳达峰”“碳中和”。西部有土地资源和清洁能源,所以要把存储器建在西部。
那么哪些数据适合在东部计算、哪些适合在西部?对实时性要求高的在东部计算,对实时性要求不高的可以放到西部。在三大算力类型中,HPC、AI算力建在西部是合适的。HPC做天气预报的计算,一算几个钟头,中间也不必进行数据交换;AI模型的训练一连几天,这些都可以放在西部。
综上所述,我国算力发展面临三大问题:国产超算平台架构多样,应用移植和调优工作难度大;国产算力平台支持复杂应用全流程计算的能力亟待提高;AI企业面临巨大“卡脖子”风险。笔者建议,加强跨平台编译优化研究建设;加强国产超算HPDA系统的软件研发;定义自主AI产品,出台措施鼓励行业加速使用;加强HPC、AI、大数据三类计算系统的融合研究。
(中国工程院院士、清华大学计算机系教授 郑纬民)