英伟达还能一家独大吗?AI的五大挑战!

2024 年是 HPC-AI 市场大放异彩的一年。SC24的出席人数创下了历史新高,劳伦斯利弗莫尔**实验室的El Capitan在Top500榜单上位居榜首, AI 市场蓬勃发展,超大规模公司在 2023 年的投资额是其原本高额投资的两倍多。

那么,为什么这一切感觉如此不稳定?随着 2025 年的到来,HPC-AI 行业正处于一个转折点。不断**的 AI 市场占据了人们的讨论话题,一些人担心它会耗尽 HPC 的活力,而另一些人(或许是同一群人)则在等待 AI 泡沫破裂。与此同时,政治变革正在威胁现状,可能会改变 HPC-AI 的市场动态。

Intersect360 Research正在制定今年的研究日程,并参考了HPC-AI 领导组织 (HALO)的意见。我们制定了有助于制定新五年预测的调查,以下是 HPC-AI 市场在未来五年面临的五大问题。

1、人工智能市场能有多大?

在我们 SC24 之前的网络研讨会上,Intersect360 Research 对其 2024 年 HPC-AI 市场预测进行了重大调整,宣布我们预计超大规模 AI 将连续第二年实现三位数增长,并且未来几年将保持高增长率。我们还提高了混合、本地(非超大规模)HPC-AI 市场的前景,但与超大规模的巨大增长相比,这种相对温和的增长显得微不足道。

AI 已经成为数据**基础设施讨论的焦点。例如,在Hot Chips 2024上,少数几个没有明确关注 AI 的演讲仍然提到了它。供应商们正在竞相拥抱 AI 市场看似**的增长。

超大规模人工智能市场主要以消费者为主,而且已有先例。超大规模通过从以前不依赖企业计算的消费者市场中创建云数据**市场,实现了最初的增长。日历、地图、视频游戏、音乐和视频过去都存在于线下,社交媒体是一个前所未有的类别。人工智能正在建立在所有这些现象的基础上,并且正在创造新的现象。

没有哪个市场是真正无边无际的,但超大规模组件仍在摸索其上限。举个例子,Meta在 2024 年 4 月的财报电话会议上宣布,它将每年的资本支出增加到 350 亿至 400 亿美元,以适应其对 AI 基础设施的加速投资。扣除可能与 AI 无关的资本支出,Meta 在其各个平台上全球约 32 亿用户中,每位用户仍有约 10 美元的支出。

在这种情况下,一家超大规模公司可能期望通过使用人工智能每年从每位用户身上额外赚取 10 美元的利润,这是有道理的。要想达到更高的利润,公司要么需要更多的用户,要么需要更高的每位用户的预期价值。很少有公司拥有超过世界人口三分之一的用户。单个用户的个人数据能因为人工智能而价值增加 20 美元吗?

除了经济因素之外,超大规模 AI 数据**生产中被提及最多的限制因素是功耗。AI 数据**的建设规模每次都达到数百兆瓦,甚至数千兆瓦。各家公司都在寻求创新解决方案,为这些建设提供电力。最臭名昭著的是,微软与 Crane 清洁能源**签署了一份合同,将重启宾夕法尼亚州三里岛核电站 1 号机组,该核电站于 1979 年发生过核熔毁事故。(1 号机组独立于发生事故的 2 号机组,此后 1 号机组继续运行。)

因此,超大规模人工智能与可持续性概念息息相关,而且全球范围内消耗如此多的电力是否负责任也是个问题。但是,如果每年花费数百亿美元不是障碍,那么寻找电力也不是障碍,超大规模公司尚未找到他们能够获取和消耗的电力的极限。

超大规模 AI 的迅猛发展最令人惊奇的事实或许在于,它并不是大多数数据**讨论的焦点。相反,我们追逐的是“企业 AI”的概念,即 AI 有望**改变企业计算。

这场革命无疑会发生。就像个人电脑、互联网和万维网都**改变了企业一样,人工智能也将如此。企业人工智能的市场机会取决于预期的业务结果。要使人工智能成为一项有利可图的举措,有两条路可走:它可以**成本,也可以带来更多收入。

到目前为止,大部分**似乎都放在成本优化上,例如通过精简运营或(让我们面对现实)裁员。这项投资受到一个简单的谜题的限制:你要花多少钱来节省一美元?即使将收益按年计算(每年美元),也给出了值得花费的实际限制。此外,这条路的收益递减。如果一家公司可以花费 200 万美元来每年节省 100 万美元,那么它不太可能在接下来的 200 万美元中重复同样的伎俩,以同样的水平获得同样的收益。

至于增加收入,有两种类型:主要收入(总体上创造更多收入)和次要收入(从竞争对手手中夺取份额)。我们以航空公司为例。通过实施人工智能,航空公司是否会吸引更多人乘坐航班?乘客是否会平均每趟航班花费更多钱,特别是因为航空公司的人工智能?(附加问题:如果是这样,这会如何影响其他市场的消费者支出?还是人们只是有了更多的钱?)

更有可能的是,我们正在考虑一个竞争性市场份额论点:由于航空公司 A 的人工智能投资,更多的客户会选择航空公司 A 而不是航空公司 B。在这种情况下,及时做出转变可能很重要。亚马逊最初是一家书店。如果 Borders 或 Barnes and Noble 早些投资网络商务,亚马逊可能**不会有这样的机会。

但这是一场零和博弈。如果航空公司 A 和航空公司 B 在人工智能方面的投资相同,而各自的收入保持不变,那么他们就花了必要的钱却没有收获。(这是微观经济博弈论中典型的“囚徒困境”。在这个简化的例子中,如果两家航空公司都不投资,两家航空公司都会受益,但无论对方做什么,每家航空公司进行投资都会受益。)

**,那些为人工智能构建硬件、模型和服务的人都寄希望于大规模的企业迁移。如果人工智能走上网络的道路,那么十年后,即使盈利能力没有因此飙升,稳健的人工智能投资也将被视为经营成本。这样一来,人工智能将成为 IT 预算的主要部分,但在数量上可能与现有的 IT 预算没有太大区别。

2、超大规模会**接管企业计算吗?

在企业AI的追求中,一些硬件公司可能对AI系统**是放在本地还是放在云端感到矛盾,但对于超大规模社区来说,一切(包括AI)即服务是未来的愿景。我们已经看到了消费市场的云化。随着超大规模数据的高度集中,AI可能成为企业实现同样目标的杠杆

Intersect360 Research一直预测,云计算在HPC-AI市场的渗透率将达到一个临界点,大约占 HPC 总预算的四分之一。主要限制因素不是**云障碍,而是简单的成本;对于**能够达到足够高利用率的人来说,租用比购买更便宜。此外,数据引力和主权问题正在推动更多组织倾向于本地部署。举个例子,GEICO的代表在9月的OCP全球峰会上介绍了其全系列应用(包括HPC和AI)脱离云的举措。

但如果云成为**的选择会怎样?目前,超过四分之三的 HPC-AI 基础设施(以及所有数据**基础设施)都被超大规模市场所占用。**超大规模公司每年花费数百亿美元;它们各自都是一个市场。在产品设计和可用性方面,组件和系统制造商自然会优先考虑它们。

那些寻求 HPC-AI 解决方案的人可能会发现,**技术根本无法获得,因为超大规模企业能够消耗特定产品的**供应。Nvidia GPU(实现 AI 的**神奇宝石)即使有,价格也很高,而且等待时间很长。专注于 HPC 的存储公司同样参与了超大规模 AI 部署。

AI 能够进一步向云计算倾斜。如果真是这样,那么 HPC-AI 技术的内部部署市场将陷入衰落。HPE、戴尔、Atos/Eviden、富士通、思科、EMC 和 NetApp 等传统 OEM 企业产品和解决方案公司将争夺较小的市场。(联想、Supermicro 和 Penguin Solutions 等其他公司已经采用了混合 ODM-OEM 业务模式,以便有效地向高增长的超大规模市场销售产品。)

在人工智能的推动下,超大规模公司的发展已经远远超出了 Intersect360 Research 预测的水平。从历史上看,这种市场集中度水平并不稳定。五年前,在预测超大规模市场时,Intersect360 Research写道:“这种市场力量在世界经济史上并非史无前例,但在信息技术时代,这种水平从未见过。”

从那时起,超大规模数据**的发展速度大大加快。全球数据**市场集中于少数买家。如果这种趋势持续下去,它将从根本上颠覆企业计算的购买和使用方式,无论买家是否愿意,一切即服务的观点都可能成为现实。

3、美国新政府将对HPC-AI带来什么影响?

多年来,围绕 HPC-AI 能力的**主权问题一直在加剧。全球HALO 咨询委员会最近将“HPC 民族主义”列为阻碍行业进步的关键问题。美国、**、欧盟、英国、**、日本和印度都基于本地技术提出了独立的 HPC-AI 主权倡议。《纽约时报》 报道,不丹国王吉格梅·凯萨尔·纳姆耶尔·旺楚克最近前往加州的 Nvidia 总部,讨论建设 AI 数据**。

特朗普总统已经在加速**独立的进程。他的政治纲领是美国例外主义,他上任的**天就表明了促进美国伟大的意图。值得注意的是,特朗普强调了星际之门项目的宣布,“一家新公司打算在未来四年内投资 5000 亿美元,在美国为 OpenAI 建设新的人工智能基础设施。”特朗普称星际之门是“一家新的美国公司……它将几乎立即为美国创造 10 多万个就业机会。”

星际之门项目很难被称为特朗普的成就,因为显然在特朗普上任之前它就已经在筹备中了。此外,投资并非来自美国政府。两家主要出资者软银(日本)和 MGX(阿联酋)都是非美国公司;MGX 是阿联酋政府最近才成立的。但特朗普可能会因创造一个将数据**和相关工作留在美国的环境而获得赞誉。

特朗普抓住了这一声明,并将其与他打算实施的政策联系起来。“这将确保技术的未来。我们想做的是,我们希望技术留在这个**。**是竞争对手,其他**也是竞争对手。我们希望技术留在这个**,我们正在让技术可用,”特朗普指出。

至于星际之门的建设和发电,特朗普誓言要让事情变得简单。“我将通过紧急声明提供大量帮助,因为我们有紧急情况。我们必须建造这些东西,”他说。“他们必须生产大量电力,如果他们愿意,我们将让他们能够非常轻松地在自己的工厂完成生产。”

特朗普采取的其他行动,例如立即退出《巴黎气候协定》,都表明他希望美国投资能够迅速推进,无论外部因素如何,例如其他**的情绪或对环境的担忧。他承诺将通过放松管制为企业扫清障碍,并促进美国的能源生产。所有这些行动都应转化为对 HPC-AI 技术的支出净增加,不仅是超大规模公司,而且是关键的 HPC 商业垂直市场,例如石油和天然气勘探、制造业和金融服务。

公共部门支出更令人怀疑。新成立的政府效率部 (DOGE) 是一个非官方的咨询机构,由埃隆·马斯克 (Elon Musk) 领导,专门负责削减政府支出。一些超级计算堡垒,如美国能源部下属的科学技术政策办公室 (OSTP),传统上一直得到两党的大力支持。其他政府部门,如 NASA、NSF 或 NIH,可能会受到密切关注,甚至更糟的是,被裁员。

以美国商务部下属的**海洋和大气管理局 (NO**) 为例。谷歌上个月宣布,其 GenCast 集成 AI 模型可以“比**操作系统欧洲中期天气预报** (ECMWF) ENS 提前 15 天提供更好的日常天气和极端事件预报”。在未来四年内,DOGE 会建议缩小(或取消)NO** 规模,转而采用私营部门的 AI 合同吗?

美国发生的事情自然也会影响到国外。欧盟委员会早就开始关注制定不依赖美国或**技术的 HPC-AI 战略。欧洲 HPC 联合组织执行董事 Anders Jensen在接受 Intersect360 Research **分析师Steve Conway采访时表示:“主权仍然是我们采购的关键指导原则,因为我们新收购的系统将越来越依赖欧洲技术。”随着美国关税和出口限制威胁的加剧,这些努力只会不断升级。

**一直在努力实现 HPC-AI 技术独立,**组织已停止向半年一次的 Top500 榜单提交系统基准测试。未来几年,中美之间可能会出现类似于上个世纪美苏太空竞赛的“人工智能竞赛”。澳大利亚、加拿大、日本、沙特**伯、韩国或英国等规模较小但 HPC-AI 实力仍然显着的**将面临挑战,需要制定战略来跟上步伐。

回到美国,值得思考的是,在这种背景下,“美国领导力”意味着什么。虽然欧盟专注于公共部门融资,而**拥有独特的**控制资本主义模式,但美国公司既不属于美国政府,也不受美国政府控制。世界上**的超大规模组织总部设在美国,但它们是依赖外国客户的全球性公司。同样,Nvidia、英特尔和 AMD 等关键技术提供商也是美国公司,它们也在国外销售产品。限制这些产品的分销会损害相关公司的利益。

Nvidia政府事务副总裁Ned Finkle在博客中猛烈抨击拜登政府在总统任期**几天通过的“人工智能扩散”规则,称其“史无前例且具有误导性”,并称其为“监管泥潭”,“有可能浪费美国来之不易的技术优势”。考虑到这些观点,特朗普政府面临着一个棘手的问题——既要推动使用世界**的美国HPC-AI技术,如Nvidia GPU,又要保持对其他**(尤其是**)的领导地位,因为美国政府认为**是竞争对手。

4、有谁能挑战Nvidia吗?

Nvidia 高管层的意见很重要,因为在 AI 领域,Nvidia 控制着关键技术 GPU。GPU 曾经只限于图形处理,直到 Nvidia 进行了长达十年的出色努力,建立了 CUDA 编程模型,将 GPU 引入 HPC。当人们发现 GPU 非常适合为机器学习提供动力的神经网络计算时,Nvidia 才真正开始投入竞争。

Nvidia 现在**主导了 GPU 及其相关软件的 AI 市场。此外,Nvidia 还率先推出了专有互连 NVlink,用于将 GPU 及其内存联网到更大的高速系统中。通过2020 年收购 Mellanox,Nvidia 控制了 InfiniBand,这是**的 HPC-AI 高速系统级互连。Nvidia 还通过其 Grace Hopper 和 Grace Blackwell“超级芯片”节点以及 DGX SuperPOD 基础设施垂直整合到完整的系统架构中。

最重要的是,Nvidia 正寻求通过发布自己的 CPU Grace 来**对外部技术的依赖。Nvidia Grace 是一款 ARM 架构 CPU,可补充 Grace Hopper 和 Grace Blackwell 部署中的 Nvidia GPU。虽然 Nvidia 在 GPU 方面遥遥**,但在 CPU 方面却落后了,而 CPU 仍然是服务器的核心。

因此,Nvidia 最自然的两个竞争对手是美国**的 CPU 供应商英特尔和 AMD。英特尔的**优势在于 CPU。英特尔的 Xeon CPU 仍然是企业服务器的**,数十年来的传统软件都针对它进行了优化。在服务于传统科学和工程 HPC 代码以及新兴 AI 工作负载的混合工作负载环境中,这些 CPU 的兼容性和性能非常重要。

这种根深蒂固的优势为英特尔提供了一条抵御 GPU 入侵的捷径。值得赞扬的是,英特尔预见到了这一威胁并试图阻止它。在 CUDA 的早期,英特尔宣布了自己的计算 GPU,代号为 Larrabee。该项目在构思不到两年后就被取消了,从未上市。

从那时起,英特尔尝试了一个又一个加速器项目,但都以失败告终,其中包括集成众核 (MIC) 架构,该架构后来成为英特尔至强融核 (Intel Xeon Phi),无论是作为加速器还是作为集成 CPU,都以失败告终。英特尔**的 GPU 加速器代号为 Ponte Vecchio,经历了一系列延迟,在阿贡**实验室的 Aurora 超级计算机中未能达到性能预期。

英特尔现已放弃维琪奥桥 (Ponte Vecchio) 和之前计划的代号为里亚托桥 (Rialto Bridge) 的后续项目,因此那些期待英特尔 GPU 的人只能等待一款名为Falcon Shores的产品及其继任者Jaguar Shores ,尽管在**执行官帕特·基辛格 (Pat Gelsinger)突然退休之后,英特尔所有产品的未来都变得不明朗。英特尔目前确实提供了一款非 GPU 的 AI 加速器英特尔 Gaudi,但尚未对 Nvidia 的主导地位产生重大影响。

英特尔已放弃其核心 CPU 业务以外的其他尝试。英特尔开发了 Omni-Path 架构,以与 InfiniBand 竞争,成为 HPC 的高端系统互连。在取得小幅成功后,英特尔便放弃了;Cornelis Networks 从英特尔的垃圾堆中捡起了 Omni-Path,现在将其发扬光大。英特尔、AMD、Cornelis Networks 和其他公司现在都加入了超级以太网联盟,该联盟旨在实现能够与 Nvidia InfiniBand 竞争的高性能以太网解决方案。

相反,AMD 的 AMD EPYC CPU 和 AMD Instinct GPU 都取得了巨大的成功。在三家主要供应商中,AMD 是**个将 CPU 和 GPU 连接在一起的集成系统推向市场的公司。AMD 继续在 HPC-AI 领域获得份额,其最引人注目的两次胜利是劳伦斯利弗莫尔**实验室的El Capitan 超级计算机和橡树岭**实验室的 Frontier 超级计算机,这两台超级计算机均由 HPE 领导。

AMD 的弱点是软件生态系统。在 2023 年 Intersect360 Research 的一项调查中,HPC-AI 用户认为 AMD 在 GPU 的性价比方面优于 Nvidia 和 Intel。但在软件生态系统方面,Nvidia 击败了 Intel,尤其是 AMD。(见图表。)Nvidia 还在“技术”和“未来前景”方面**所有用户评分。

当然,买家的选择不**于 Nvidia、英特尔和 AMD。Cerebras、Groq 和 SambaNova 等公司都凭借其用于 AI 系统的加速器取得了显著的成功。但这些公司都不足以对 Nvidia 的市场主导地位构成竞争威胁。如果其中一家公司或其同伙被一家超大规模公司收购,可能会成为一个因素。

Nvidia 在 AI 领域遥遥**,对 Nvidia 的**威胁(也可能是**真正的威胁)是**的范式转变。超大规模公司一直是 Nvidia **的客户。这些公司充分意识到他们对 Nvidia GPU 的依赖,这些 GPU 在全球范围内需求旺盛,因此价格昂贵且经常供不应求。亚马逊、谷歌和微软都在内部设计自己的 CPU 或 GPU,要么在自己的云服务中提供给其他人,要么供自己专用。

与此同时,Nvidia 还投资打造了以 GPU 为**的新型云服务。CoreWeave、Denvr DataWorks、Lambda Labs 和 Nebius 只是提供 GPU 的云服务的少数几个例子。其中一些是新来者;另一些则是转型的比特币矿工,现在他们在 AI 中看到了更广阔的前景。

这使得 Nvidia 在两个方面与其客户展开竞争。首先,Nvidia 正在设计完整的 HPC-AI 系统,与 HPE、戴尔、联想、Supermicro 和 Atos/Eviden 等服务器 OEM 公司竞争,这些公司以自己的配置将 Nvidia GPU 推向市场。其次,Nvidia 正在资助或以其他方式支持 GPU 云,与自己的超大规模云客户竞争,这些客户自己也在设计处理单元,这可能会减少他们未来对 Nvidia 的依赖。

如果人工智能继续发展,超大规模继续占据主导地位,美国市场的限制被**,那么我们可能会面临一个新的竞争模式。到本世纪末,问题可能不是英特尔或 AMD 能否赶上 Nvidia,而是 Nvidia 如何与谷歌、微软和亚马逊竞争。

从这个角度看,竞争空间是广阔的。对于星际之门项目,OpenAI 与甲骨文和微软结盟,将 Nvidia 作为主要技术合作伙伴,该项目声称将在未来四年投入 5000 亿美元。去年,由上述 DOGE 沙皇埃隆·马斯克领导的 X.ai 凭借Colossus AI 超级计算机的实施,进入了超大规模 AI 支出的**行列。如果马斯克通过收购一家拥有专业 AI 推理处理器的公司来扩充他的技术储备,那么事情可能会变得更加有趣。

5、那么传统的 HPC 又如何呢?

随着竞争态势不断变化,老派 HPC 人士自然而然地开始寻找各种方式将 AI 与 HPC 整合在一起,包括 AI 增强型 HPC 等概念。除了代码迁移等简单任务外,AI 还可以用于 HPC 预处理(例如目标缩减)、后处理(例如图像识别)、优化(例如动态网格细化)甚至集成(例如计算转向)。随着 AI 的蓬勃发展,我们对融合的 HPC-AI 市场持乐观态度。

这是一个梦想,HPC 需要从中醒来。虽然人工智能确实为 HPC 带来了这些好处,甚至更多,但它也带来了危机。

在 SC24 上,我们理所当然地庆祝了 El Capitan,这是我们的第三台百亿亿次超级计算机,也是世界上**大的超级计算机。然而,我们都知道我们在自欺欺人。Glenn Lockwood 曾是 NERSC 的高性能存储专家,现在是 Microsoft Azure 的 AI 架构师,他在SC 后的博客中证实,微软正在“以每月 5 倍 Eagles(70,000 个 GPU!)的速度构建 AI 基础设施”,指的是 Microsoft Eagle 超级计算机,目前在 Top500 榜单上排名第四,仅次于三个 DOE 百亿亿次系统。如果愿意的话,微软或其他超大规模公司显然可以取得更高的分数。

我们习惯于认为这些**实验室的超级计算机是世界**者,它们为更广泛的 HPC 和企业计算市场设定了发展方向。但事实已不再如此。一台价值 5 亿美元、功率为 30 兆瓦的超级计算机不再是世界**的。它甚至不是一个特别大的订单。能源部超级计算机可能对科学仍然至关重要,但展望未来,企业数据**行业的发展方向将由人工智能而不是传统的超级计算来设定。

如果这听起来不重要,其实它很重要。尽管 HPC 人群已经多次讨论了 HPC 和 AI 的融合,但我们现在正朝着相反的方向前进,因为服务于 AI 的技术和配置与科学计算的需求相差甚远。

这在精度讨论中最为明显。虽然 HPC 依赖于 64 位双精度浮点计算,但我们已经看到人工智能(尤其是用于推理的人工智能)已经从 32 位单精度、混合精度和 16 位半精度逐渐下降,现在变成了“bfloats”和8 位、6 位甚至4 位精度的浮点或整数的各种组合。现在,公司经常宣传他们的处理器或系统能够执行多少次“AI flops”,但并没有定义“AI flop”代表什么。(这就像举办一场比赛看谁能吃最多的饼干一样愚蠢,没有关于单个饼干有多小的界限或标准。)

关于精度的某些讨论可能对 HPC 有益。在某些情况下,可能会对一开始就不是很**的模型进行非常昂贵的高精度计算。但在 2024 年 Intersect360 Research 对 HPC-AI 软件的调查中,用户明确指出 FP64 对他们未来的应用最为重要。(见图表。)

如果处理器供应商受人工智能驱动,我们可能会看到 FP64 慢慢(或很快)从产品路线图中消失,或者至少比人工智能驱动的低精度格式受到的关注更少。化学、物理和天气模拟等更依赖高精度计算的应用领域将面临**的障碍。

传统 HPC 和较新的 AI 应用程序之间的 CPU 和 GPU 平衡也不同。尽管 Nvidia 在 CUDA 和软件方面投入了大量精力,但大多数 HPC 应用程序在每个节点超过两个 GPU 的情况下都无法很好地运行,许多应用程序在** CPU 的环境中仍然表现**。相反,AI 通常**在高密度 GPU 下运行,每个节点有八个或更多 GPU。此外,这些 AI 节点可能更适合使用具有相对低功耗和高内存带宽的 CPU——ARM 架构的优势体现在 Nvidia Grace CPU 中。

现在,混合 HPC-AI 市场充斥着每个节点配备四个 GPU 的服务器节点,这是目前安装的最常见配置。在某些情况下,这可能效果很好,但在其他情况下,这可能是双方同样讨厌的妥协:GPU 太多,HPC 应用程序无法有效使用;而对于 AI 工作负载来说又不够。对于其**的超级计算机MareNostrum 5,巴塞罗那超级计算** (BSC) 选择将其节点分为不同的分区,有些每个节点配备较多 GPU,有些则较少。可组合性技术在未来也可能有所帮助,允许一个节点使用另一个节点的 GPU。GigaIO 和 Liqid 是两家以 HPC 为导向的公司,追求系统级可组合性,但迄今为止采用率有限。

高性能存储也正在被劫持。我们与 HPC 数据管理相关的公司,例如 DDN、VAST Data、VDURA(前身为 Panasas)和 Weka,现在正以惊人的速度增长,这要归功于它们的解决方案适用于 AI。幸运的是,对于 HPC 来说,目前它还没有导致高性能存储架构方式发生重大变化。

**,如果推动企业计算的解决方案发生变化,那么 HPC 可能也必须随之改变。如果这听起来很极端,请放心。以前也发生过这种情况。

数十年来,HPC 一直是大型企业计算市场的宠儿。市场力量推动了从矢量处理器到标量处理器、从 Unix 到 Linux 以及从 RISC 到 x86 的迁移。**这两项迁移同时发生,这要归功于从对称多处理 (SMP) 到集群的**转变。

集群在 20 世纪 90 年代末通过 Beowulf 项目开始大规模出现,该项目推广了这样一种理念:大型高性能系统可以通过行业标准的 x86-Linux 服务器构建。这些商品系统之所以受到关注,是因为当时一种趋势的炒作和前景与今天的人工智能一样多:万维网的出现。

许多顽固的 HPC 书呆子对集群感到失望,声称它不是“真正的”HPC。人们说,它只是容量,而不是能力。(IDC HPC 分析师团队甚至将“容量 HPC”和“能力 HPC”纳入其市场方**;这种命名法持续了多年。)人们抱怨集群不适合带宽受限的应用程序,它会导致系统利用率低,并且不值得移植。这些与今天关于 GPU 和较低精度的争论非常相似。

当然,集群**胜出,尽管转变过程耗时约十年。集群是行业标准,而且成本低廉。一旦应用程序完成移植到 MPI 的过程(通常很痛苦),它们就可以轻松地在不同供应商的硬件之间迁移。不管喜欢与否,低精度 GPU 很容易成为当今的模拟。HPC 工程师的任务不是设计企业技术,而是利用手头的技术。

高性能计算的某些领域将面临更大的威胁或机遇,这取决于你的观点。如果人工智能真的能够像传统模拟一样准确地预测结果,那么人工智能方法将在某些领域真正取代确定性计算。

以经典的 HPC 案例为例,有限元分析用于碰撞模拟。虚拟碰撞模拟比物理测试更快、更便宜。汽车公司可以在更短的时间内测试更多场景,指导开发出**解决方案。如果人工智能学会了做同样的事情,或者做得更好,会怎么样?我们还会运行确定性应用程序吗?毕竟,虚拟模型从来都不是实体汽车的**代表。

这种取代的程度(希望)是有限制的。HPC 是一个(或应该是一个)长期市场,因为我们还没有到达科学的尽头,只要还有科学要做,还有问题要解决,HPC 就有解决它的作用。人工智能仍然是一个黑匣子,无法展示它的工作。科学是一个依靠创造性思维的同行评审过程。在某些时候,科学家需要做数**算。但在整个 HPC 应用范围内,值得考虑的是,在哪些方面我们必须依赖**的计算,在哪些方面,一个非常好的猜测就足够了。

仍有一些前景光明的 HPC 技术即将问世。例如,NextSilicon 逆势而上,专注于 HPC 应用的 64 位计算。受非美国 CPU 需求的推动,欧盟和**都在投资开发基于 RISC-V 架构的高性能解决方案。也许最令人兴奋的是,业内多家供应商最近在量子计算方面取得了重大进展。

从许多方面来看,2025 年都将成为决定 HPC-AI 发展方向的转折点,不仅影响了本世纪余下的时间,还影响了未来十年。在 Intersect360 Research,我们将定制全年研究日程,以明确这些关键的行业动态。全球 HPC-AI 用户可以通过加入 HALO来帮助引导对话。我们正在倾听。我们有一些重大问题需要回答。

标签: /
上一篇2025-01-30
下一篇 2025-01-30

相关推荐