k8凯发新闻中心
获11亿美元首轮融资NexthopAI用创新网络技术做AI云服务商的力量倍增器|AlphaF凯发官网入口首页,ounders
NexthopAI将自己的目标客户锁定为超大型云服务公司,它提供的是定制网络解决方案,具体包括根据客户规格设计网络硬件、由NexthopAI强化的网络操作系统,以及来自客户多元化供应链的预测试光学和电气互连。
它目前将问题聚焦在AI数据中心的GPU高速连接上,通过高速和高稳定性的网络连接,降低大型云服务基础设施的能耗,并减少云服务公司打造和运营这些基础设施时所花的成本。
NexthopAI由Anshul Sadana于2024年创立,NexthopAI的团队由近百名来自顶尖网络公司及谷歌、亚马逊等大规模云服务商的工程师组成。
Anshul Sadana曾在全球领先的网络设备供应商Arista Networks任职长达17年,担任过包括首席客户官和首席运营官在内的职位,而且深度参与了硬件设计、制造、供应链、销售等关键环节。
Arista是全球领先的网络设备供应商,尤其在高速数据中心交换机市场占据重要地位,近年在AI网络基础设施领域也扮演着关键角色。
在此之前,Sadana曾在思科(Cisco Systems)主导高速交换机的研发,并率先提出了叶脊架构,该架构是现代数据中心的基础。
Sadana对行业趋势和客户需求有着敏锐的洞察力,同时拥有深厚的技术知识以及与关键行业伙伴的牢固关系。
随着AI网络的崛起和AI工作负载的爆发式增长,网络基础设施领域迎来了新的机会。到2029年,以太网交换市场的总规模预计将达到750亿美元,其中云细分市场为350亿美元。
为了大规模训练和部署大型语言模型AI,超大规模和大型云集群需要海量的计算能力。这意味着云数据中心需要大量的图形计算单元、存储和网络架构,这些架构定制程度极高;尤其是每家投入数十亿美元的少数超大规模云服务商,它们都有独特的定制技术栈,无法再简单地从“货架”上购买现成产品并嵌入其定制技术栈中。
与此同时,这些大规模云服务商每年新增的AI云数据中心的功耗是1-2吉瓦,很快,每家公司的容量都将达到10吉瓦或更多;如果能提升哪怕1%的电力效率,那就是100兆瓦,这个功耗在几年前就可以建设一个全球最大的数据中心。
Lightspeed合伙人Guru Chahal表示。“Nexthop AI凭借其深厚的领域专长、开创性技术及定制化解决方案,正在填补网络交换云细分这个350亿美元市场中的关键空白,使其成为寻求抓住AI革命的领先云服务提供商的首选合作伙伴。”
Nexthop AI目前将问题聚焦在AI数据中心的GPU连接,有时也涉及云连接。一些大型云服务商希望将数十万甚至上百万GPU部署在一个集群中,每个GPU每节点发送800Gb到1.6Tb的带宽,构成一个巨大的网络结构。这意味着吞吐量达到艾字节级别(exabits)。这需要一种全新的网络范式,需要重新思考互联的方式。
例如,如果将50万个GPU部署到一个集群中,那么因为电力能源的限制,它们可能需要将GPU部署到好几个地点,然后互联成一个边缘集群。在这个不同部署地点之间,它的互联需要使用网络,而且这几个地点属于AI集群内部的一部分,而不是外部。
而在解决AI集群的网络互联问题,一个具体的问题是链路抖动(link flaps)。一个链路抖动,整个AI集群就会停摆,数万甚至数十万个GPU等着最后一个GPU发消息。如果无法协调这条消息,就得回滚到上一个检查点,可能损失一小时的计算时间,对大型云服务商来说那是百万美元的成本。所以他们要求让系统比现在更具韧性。
过去,人们设计网络追求“五九”(99.999%)可用性,一年最多5分钟中断。但在云端,这还不够好。所以必须关注新技术、新的韧性水平,这是以前没有的。NexthopAI在光子学上看到一些进展,比如增加冗余激光器,电气电缆也在强化。Nexthop AI设计的产品根据客户规格打造,关注信号完整性,留出足够余量,适配客户选择的连接器——不是行业标准,而是客户专用的,确保链路极少中断。
在解决这类似问题时,NexthopAI提供的不是某种硬件和软件,而是通过JDM(联合开发制造)模式提供定制化的硬件、软件和光学解决方案。
它的解决方案采用博通等公司最新商用硅芯片的定制电路板设计提供卓越的信号完整性,风冷和液冷选项支持广泛的冷却需求,并预先集成客户偏好的操作系统。
NexthopAI将精密硬件产品与开源网络操作系统(如SONiC)无缝协作,为超大规模云服务商提供了所需的灵活性和定制化。他们在硬件、软件凯发官网入口首页,、光子学和网络架构方面的全面专长,为世界级AI基础设施提供了高度优化的平台。
“大规模云服务商需要生态系统与他们共同创新,以加速其基础设施部署,NexthopAI是一个力量倍增器凯发官网入口首页,,它与云服务商的工程团队合作并作为其延伸。这种颠覆性模式使云服务商能够构建最具成本和电力效率的AI解决方案。”NexthopAI首席执行官Anshul Sadana表示。
除了通过减少能耗,减少停机时间帮助大规模云服务商降低成本外,Nexthop AI还能帮助客户加快硬件采用的迭代速度,现在GPU每年都会更新,而此前的云服务商们新产品导入周期是18个月。
GPU与GPU之间的连接,GPU集群与集群之间的连接,为什么成为AI基础设施里的一个热门细分创业领域,关键原因还是Scaling Law。一方面,现在的AI模型规模越来越大,DeepSeekR1等推理类AI模型的推理时间越来越长,这些都需要海量的计算量。而且在训练和推理时,它们对于基础设施的架构还有差异。
模型训练是横向扩展,模型推理是纵向扩展。纵向扩展要求所有GPU在一个内存域内,需要更多带宽。如果说云网络存储的带宽是1倍,横向扩展需要10倍,纵向扩展则比五年前的带宽需求提升了100倍。随着推理类模型的流行和AI应用的井喷,对于AI基础设施,包括提供连接带宽的硬件,软件,整体方案的需求,是大幅度提升的。
作为AI基础设施最大的建造商和买单的人,大规模云服务商对于它们的需求始终是成本与效率,以最低的成本,最低的功耗,为它们的客户(无论是企业,开发者还是个人)提供最快的计算速度。想达到这个目标,可以从硬件入手,从软件入手,当然也可以像NexthopAI一样提供整体的解决方案。但是它们的护城河和竞争优势还是找到问题的关键点,并能够很好的解决它,例如NexthopAI解决链路抖动问题,也包括Together.ai的FlashAttention技术。k8凯发,k8凯发,