高性能计算未来如何支撑AI

                                                   高性能计算未来如何支撑AI

深度学习仅仅是AI算法的一个分支,面向AI的云端高性能计算环境需要广泛适应包括深度学习在内的多种应用模式,未来的应用需求仍有待进一步研究。

“到2030年,所有高端计算设备将自带人工智能(AI)支持功能,高性能计算仿真将利用人工智能平台提高性能,人工智能也将重塑计算仿真。”近日在德国法兰克福举办的国际超算大会(ISC19)上,国家超级计算广州中心主任卢宇彤在谈到未来高性能计算机(HPC)与AI的融合时表示,未来高性能计算、物联网、大数据和人工智能将实现深度融合。

“计算是引擎,数据是燃料。”卢宇彤认为,到那时,高性能计算将不再比拼“肌肉”、只追求规模和性能,更加智慧的高性能计算系统将成为主流。


AI对计算的需求潜力大


“目前AI的发展还在智能感知阶段,在智能认知方面还没有很成熟的研究。从这个角度而言,AI对计算能力的需求,潜力非常大。”国家并行计算机工程技术研究中心总工程师、中国工程院院士陈左宁曾在2018年10月下旬举办的第十四届全国高性能计算学术年会上专门探讨“云端AI高性能计算计算能力及计算环境研究”,在会上她提出,现阶段HPC与AI融合问题的关键在于,在HPC体系结构发生改变的过渡阶段,如何在AI的演进阶段支撑其计算能力需求,“这是目前HPC应该考虑的问题”。

“加大对大数据与人工智能等新兴超算应用的支撑,也是中国超算未来的目标之一。”在ISC19的焦点论坛“E级计算机面临的挑战与愿景”上,国家重点研发计划“高性能计算重点专项”总体专家组组长、中山大学数据科学与计算机学院院长钱德沛表示。他认为,目前来看,AI与HPC之间的联系还处于一个“初级状态”。

“AI有大量的数据、训练任务需要超级计算的支持,同时HPC也可以把AI应用到新的领域,比如利用人工智能更精准地完成天气预报等。但从长远来看,AI与HPC可能还存在更深层的关系,转变人工智能的初衷就是从人的智能向计算转变的一个启发,它对未来的计算模式可能会带来非常重要的影响。”钱德沛表示。


拥有“支撑AI的能力”成趋势


HPC与AI的深度融合,已经是大势所趋。自2018年6月以来,新上榜TOP500的超级计算机,前十名都声称有支持AI的能力。“从这里能够看出,对于云端AI的支撑能力,已经是HPC界比较关注的一点。”陈左宁表示。

目前排名TOP500第一位的Summit超级计算机,就是“非常典型支撑AI”的HPC。“其胖节点的设计使其单节点存储容量相当大,GPU的访存也非常可观,综合下来一个胖节点的计算能力相当强,基本可满足大多AI‘一个模型放在里边做’的需求了。”陈左宁解释说。

据了解,Summit支撑AI的能力已经达到3.3E,高性能的胖节点设计使系统总节点数减少,从而降低了应用扩展难度,大容量的多级高效存储及其间的硬件一致性支持,加之高速好用的本地存储等的综合作用下,使其局部的计算能力非常强,非常适合深度神经网络(DNN)这类AI应用的提升。另外,来自中科院、清华大学等单位的超算团队在“神威·太湖之光”上也运行了许多AI应用,并在其上提供完整的AI软件。

中科曙光高性能计算产品事业部首席科学家吉青在接受《中国科学报》关于类似问题的采访时说,AI与HPC将会相互促进、共同生长。她认为,AI是信息化发展到一定阶段的必然。AI伴随着海量数据,大数据处理往往通过AI实现。“人工智能本质之一是大数据的一种处理技术,它的出现也在改变传统的高性能计算。”

“比如架构的改变,其实是计算核心的改变。从原来的纯CPU变成CPU+GPU,就是随着应用需求的改变而衍生的架构改变。”吉青说,曙光目前还在探索CPU+GPU+AI芯片的架构革新,比如支持寒武纪AI芯片卡组等比较流行的AI芯片,以匹配广泛的AI+行业应用。

在劳伦斯伯克利国家实验室超算科学家、超算TOP500榜单联合创始人埃里奇·斯特罗迈尔看来,HPC并不天然适合AI计算,但传统的HPC架构,有必要随着AI计算的需要,调优和改变。

“改变的发生,可能会影响未来TOP500的测评规则——事实上,我们也正在考虑测评手段的与时俱进。”埃里奇·斯特罗迈尔表示。

陈左宁也表示,目前HPC对AI计算支持的评价,光靠Linpack测试是不够的,还要看能效、性价比等指标。


仍待进一步探究


不过,回顾国内外较为关注的E级计算机,E级计算机对云端AI、对与训练有关的计算能力的支撑,到底要不要做,做到什么程度,目前还没有结论。

“从我国发布的将要建设的E级计算机的要求来看,并没有专门对AI计算支撑的标准或要求。国内研制E级计算的3家单位,现在对云端AI计算的支持还在探索。”陈左宁表示。

不过陈左宁表示,AI对计算能力的需求潜力已毋庸置疑。但由于AI发展的历史尚短,自身无论计算理论、方法算法都尚不完整,特别是数学理论的基础还很不坚实,因此,还不能如传统的数值模拟一样,能够非常明确地提出对HPC计算能力的要求。

“也就是说,AI的计算理论还没有发展到它能对HPC明确提出很高的需求阶段。但反过来看,如果AI能够达到人的智能水平,肯定会对计算能力、存储能力等的需求非常高。”陈左宁说,还应注意到,深度学习仅仅是AI算法的一个分支,面向AI的云端高性能计算环境需要广泛适应包括深度学习在内的多种应用模式,未来的应用需求仍有待进一步研究。

来自《中国科学报》 (2019-06-27 第7版 信息技术)


日期:2020年06月22日 09:25