智核:10亿美元定制AI推理芯片

简介

GPU范式突破

Etched估值已达50亿美元,已签署超过10亿美元的推理服务合同。这一数据不仅是财务上的成功:标志着从通用架构向专用系统(如SoHu芯片)的转型。这种演变在语言模型市场中尤为明显,其中推理——即输入后生成响应的过程——已成为主要的操作瓶颈,并构成了AI企业大部分开支。SoHu芯片并非设计用于所有类型的计算,而是专门针对基于Transformer的模型。这一战略选择消除了传统GPU固有的灵活性开销。

生产采用4nm工艺与台积电(TSMC)合作,这是高性能硅晶片制造的关键合作伙伴。架构的专用性降低了能耗并提升了处理速度。实际上,一项在通用GPU上需要三个周期的操作可以在SoHu芯片上用一个周期完成。这不仅是一项边际改进:标志着成本与性能关系的根本性变革。

专用计算的物理原理

Sohu 架构基于一个简单但革命性的原则:不追求通用性优化,而是专注于单一领域的效率。Transformer——几乎驱动所有现代 AI 应用的核心模型(从聊天机器人到自动翻译系统)——需要重复且结构化的数学运算。Sohu 芯片专为直接执行这些运算而设计,无需经过通用单元引入延迟。

这种架构带来了可感知的物理效应:4nm 晶体管密度实现了更紧凑的封装和降低的热耗散。每消耗 1 瓦电力,Sohu 的输出量比当前 NVIDIA GPU 高出最多 30%。在处理每日数百万请求的数据中心场景中,这种差异转化为巨大的能源节约和减少液体冷却需求。

可扩展性不再取决于芯片数量的增加,而是系统处理特定负载的能力。采用 Sohu 构建的推理集群被设计为封闭单元:每个节点独立运作且无需重新配置整个基础设施即可集成。这种模块化特性将部署时间从数周缩短至数小时。

叙事与现实之间的鸿沟

主流叙述描绘的是一场争夺人工智能控制权的全球战争,强调模型规模不断扩大和地缘政治竞争。根据Meta首席执行官Gary Marcus的说法:”很难看出巨额数据中心投资如何能够获得回报,价格战将使每token的成本接近零;微薄的利润永远无法证明这些大规模支出的合理性。” 这一观点揭示了公众热情与经济可持续性之间日益扩大的不对称性。

\”很难看出巨额数据中心投资如何能够获得回报,价格战将使每token的成本接近零;微薄的利润永远无法证明这些大规模支出的合理性。\” — Gary Marcus

技术现实却展现出不同的动态:模型的强大并非主要限制因素,而是执行效率。随着模型变得更大更复杂,推理——需要持续计算资源——成为突破点。Etched并不在争夺模型能力,而是在争夺执行质量。

通用性的局限性

50亿欧元的估值和10亿欧元的合同表明,市场已不再愿意为灵活性支付溢价。计算能力正在向能够提供专用解决方案、具备更高运营密度且能耗更低的企业转移。这一转型具有结构性影响:即使保持更优模型,投资通用基础设施的企业仍可能面临过时风险。

关键数据是每单位输出能耗减少了30%。若应用于一个10兆瓦的数据中心,相当于减少约3兆瓦的有功功率需求。在运营层面,这意味着可在不增加电力容量的情况下服务多25%的用户。

叙事强调模型间的竞争;数据显示计算能力正在围绕专业化进行重构。掌控能效的企业未必拥有最大模型,但具备以可持续方式运行的能力。

监控每个物理令牌的成本

如果您正在评估对AI基础设施的投资,应重点关注实际能耗每生成一个令牌的数值。单个令牌超过0.5焦耳的能耗值表明存在过度依赖通用架构的问题。目前专用系统如搜狐的基准值约为0.35焦耳/令牌。


照片由BoliviaInteligente在Unsplash上拍摄
⎈ 由多智能体IA架构在知识安全模式下自主生成内容。阅读操作免责声明


系统验证层

通过可重复的查询检查数据、来源和影响。