微软正在开启AI基础设施的新篇章,通过连接不同州的大型数据中心来构建分布式“AI超级工厂”,协同工作。这种方式旨在以前所未有的规模和速度加速人工智能模型的训练,标志着满足算力爆炸性需求的行业竞争正在从单点建设转向网络布局。据微软介绍,位于亚特兰大的新一代AI数据中心已于今年10月正式启用。它是微软“Fairwater”系列中的第二个设施,通过专用高速网络连接到先前宣布的位于威斯康星州的另一个数据中心。这意味着微软首次跨州合作已经开始运营,这可以将ku复杂的AI训练任务缩短至数周。此举正值科技巨头之间激烈的“人工智能军备竞赛”持续升温之际。据《华尔街日报》报道,米Crosoft计划在未来两年内将其数据中心总面积增加一倍,以应对不断增长的计算能力需求。全新的“AI Gigafactory”网络不仅将支持微软自有AI超智能团队OpenAI等重点企业,还将为Mistral AI、埃隆·马斯克的Xai等重点客户提供服务,凸显了其在AI基础设施领域的关键地位。如此庞大的建设计划背后是巨额的资本支出。微软上季度的资本支出超过 340 亿美元,预计今年将继续增加投资。从整个行业来看,今年科技公司人工智能相关投资总额预计将达到4000亿美元。在此背景下,微软的网络分销战略不仅是一项创新技术,也是其在激烈的市场竞争中巩固领先地位的关键一步。 “AI超级工厂”:从独立站点到分布式微软“AI超级工厂”的主要理念是将众多地理位置分散的数据中心整合为一台虚拟的单一超级计算机,这与传统数据中心的设计理念完全不同。微软Azure基础设施总经理阿利斯泰尔·斯皮尔斯(Alistair Speirs)解释道:“传统数据中心旨在为许多客户运行数百万个独立应用程序,我们称其为‘AI超级工厂’,因为它在数百万个硬件上运行复杂的作业。”在这个模型中,训练人工智能模型的不再是单个站点,而是共同支持相同训练任务的站点网络。这个分布式网络连接许多站点,并将包括数十万个最先进的 GPU、数艾字节的存储空间和数百万个 CPU 内核。其设计目标是支持未来数万亿参数的AI模型训练。随着人工智能训练过程变得更加复杂,包含预训练等多个阶段宁、强化学习和分析,这种跨站点协作能力变得至关重要。专为人工智能打造:设计与技术 在新一代数据中心中,为了实现“超级工厂”的愿景,微软从模拟系列数据中心中设计了“fairw”。 NVL72机架级系统,可扩展至数十万个NVIDIA Blackwell架构GPU互连:在数据中心内部,所有GPU通过高速网络紧密连接,以确保芯片之间的快速信息流。 ”微软云与人工智能事业部执行副总裁 Scott Guthrie 表示,已经部署了 12 万英里的专用光缆,构建了一条专门用于 AI 流量的“高速公路”,让微软 Azure 数据训练工作将停止。需求激增下的“军备竞赛”ft已经敲定了一些数据中心租赁计划,Alistair Speirs澄清说,这只是“容量规划转变”,该公司目前面临着远远超过其供应能力的需求。在这场计算能力竞赛中,微软并不是唯一一家。其主要竞争对手亚马逊最近在印第安纳州雷尼尔数据中心集群启动了占地1200英亩的项目,预计耗电量为2.2吉瓦。此外,Meta Platform、Oracle等公司也宣布了大型建设计划,而AI初创公司Anthropic则宣布计划在美国投资500亿美元用于计算基础设施。通过将数据中心连接成统一的分布式系统,微软不仅在技术上开辟了一条新的道路,而且在商业上也做好了准备,以满足领先人工智能公司的巨大需求。正如 Scott Guthrie 所说:“我们正在将人工智能网站作为一个整体来构建,帮助我们的客户将突破性的模型变成现实。” 特别声明:以上内容(如有则包括照片或视频)由自媒体平台“网易号”用户上传发布。本平台仅提供信息存储服务。 注:以上内容(包括图片和视频,如有)由网易HAO用户上传发布,网易HAO为社交媒体平台,仅提供信息存储服务。微软通过连接不同州的大型数据中心形成协作式分布式数据中心,开启了人工智能基础设施的新篇章。

