超越蛮力表现的IBM HPC战略
本周超级计算机Top500排行榜宣布之后,富士通Fugaku超级计算机以415.5petaflops的高性能Linpack(HPL)结果荣登榜首,击败了去年的领先者IBMSummit超级计算机,后者跌至第二。这对于日本,富士通和CPUIP提供商Arm来说是一个不错的选择,但是在现实中,Top500列表有多重要?全球顶级超级计算机的竞争基于运行称为Linpack的基准。该基准旨在替代系统供应商通过在其系统中添加计算元素而仅要求原始处理能力的要求,但不会增加任何压力。Top500列表使用Linpack已有25年以上的历史了,高性能计算业务中的许多供应商仍然对竞争结果施加很大的压力。然而,显而易见,这种基准已经过时了。基准测试经常激发对这一工作负载和蛮力计算能力的优化,但是却没有更明智的方法来解决现实世界中的问题。
为了防止机构和公司作弊,对计算优化有一些非常严格的限制,并且仅计算科学计算中使用的双精度浮点(64位)数学(大多数计算机针对32位数学进行了优化))。实际上,各种供应商可以声称的Linpack性能数据通常只是实际性能的一小部分。此外,Top500Linpack是一种用于测量峰值性能的蛮力方法,并且没有考虑到超级计算中优化性能的未来将需要人工智能(AI)处理。甚至发布Top500结果的组织也开始推广结合AI处理的新基准-HPCG和HPL-AI基准。
为了处理由这些超级计算机生成的所有数据并更好地优化仿真的执行,机器学习和AI优化将在整理大型数据集的能力中变得更加重要。认识到这些局限性,像IBM这样的公司将目光投向了Top500浮点运算之外,并致力于解决现实世界(以及客户)的高性能计算(HPC)问题。
前进的关键因素是能够以更具创意的方式优化数据和性能的能力。业界应该寻找更有效地利用现有系统的方法。拆除高性能计算中心并将其替换为全新的硬件极其昂贵,因此,那些可以提高效率和优化现有数据中心的策略可以以更低的成本和更少的浪费提供巨大的收益。
更智能的计算示例之一是IBM贝叶斯优化技术。通过允许贝叶斯优化技术访问数据集参数,它可以大大减少模拟运行之间的计算周期,而不会降低准确性。该软件大大减少了计算机工作量,并以更少的计算机时间数量级产生了相同的结果。
IBM在其内部的Power处理器设计中一直使用贝叶斯优化技术。例如,对于硅芯片设计过程中的单个步骤,IBM发现贝叶斯优化将模拟减少了79%(从135个减少到28个步骤),并提供了相同或更好的结果。贝叶斯优化技术的另一种用途是在药物发现测试中,该技术将最有效的候选药物定位的速度比传统搜索技术快40倍。此外,可以针对本地,云或混合云系统配置对其进行配置。该平台也与语言和平台无关。
Top500竞争中没有考虑的另一个趋势是处理能力的分布更接近边缘。边缘处理允许对数据进行更接近信息源的预处理。Top500仅专注于整合整个计算机来解决一个问题,而分布式计算和边缘更多的计算则需要一套不同的性能指标和解决问题的不同方法。
政府资助的研究机构将继续追逐HPC社区中的Top500冠冕及其声望,但是商业客户需要现实的表现。IBM是一家将自己定位为专注于交付客户成果的公司。这就是真正的创新需要发生的地方。