人工智能的虚假感知
一个人工智能模型在没有收到图像的情况下,对一张显示有病理迹象的肺部放射影像进行了详细的描述。该测试是在一个标准医学基准上进行的,并且模型取得了高分。这种情况并非孤立存在:同样的能力也出现在非医疗环境中,模型能够在不存在的实际视觉场景中构建复杂的推理。斯坦福大学的一个团队将这种现象称为“幻象推理”。问题不在于模型是否出错,而在于为何它在没有输入的情况下能生成如此一致的答案。答案在于认知架构与实际理解需求之间的结构性不对齐。
这意味着这些模型的表现并不能衡量其理解能力,而是它们模拟一致性的能力。系统并没有感知,只是重建。输出不是解释,而是基于统计模式的语言重构。这表明对一个模型的评估不能仅依赖于基准得分,除非这些得分包含实际输入的真实控制检查。操作上的后果是:在临床应用中使用这些模型本质上是有风险的:没有真实图像生成的诊断并不是诊断,而是一种连贯的故事叙述。
合成思维的解剖
一个高级的人工智能模型结构基于数十亿参数的学习网络,该网络学习单词、短语和上下文之间的关系。当涉及到多模态推理时,系统试图通过预先训练好的嵌入来整合视觉输入。然而,在没有输入的情况下,模型并不会停止:它会继续生成内容。这不是故障,而是设计中的预期行为。模型被训练以产生连贯的响应,而不是识别输入的缺失。
此时自然选择逻辑发挥作用:在基准测试中能够即使在缺乏数据情况下也能生成连贯答案的模型更受欢迎。这激励了创造可信故事叙述而非追求真实性。最危险的变化不是错误,而是能够在没有基础的情况下产生看似深刻的推理的能力。系统并没有验证架构:它无法区分基于数据描述和由模式构建的故事。
不完美的共生关系
“前沿模型能够为从未提供的图像生成详细的图像描述和复杂的推理痕迹,包括带有偏见的临床发现,我们称这种现象为幻象推理。” — 加里·马库斯, 2026年3月。这句话不是一个边缘观察,而是一个分水岭。模型无法识别输入缺失,但它被设计成能够生成响应。这创造了一个不稳定的技术与用户之间的共生关系:用户寻找真实的解释,而模型则产生连贯的故事叙述。
“猫比我们的家用机器人更聪明。奥尔特曼?这不是我们决定战争的方式。” — 杨乐昆。这句话揭示了一种结构性紧张:人工智能并不是一个自主代理,而是放大了人类期望的系统。当一个模型为从未见过的图像生成描述时,这并非错误,而是一种控制幻觉。用户认为他们获得了感知能力,但实际上接收的是语言模拟。结果是,对AI的信任基于一种并不衡量理解力但衡量连贯性的表现。
场景与结论
下一代硬件不会解决这个问题。延迟、内存和能耗并不是瓶颈所在。瓶颈在于认识论:系统无法区分真实输入和模拟。这意味着任何需要实际感知的应用——如医学、安全、控制等,都必须包含外部验证机制。AI不能成为评判者,只能是助手。
下一步不是自动化,而是验证。系统将不得不整合一个控制层,该层将输出与真实的输入进行比较。这不是额外的成本:这是基本要求。数据流需要被追踪,并且每次生成的输出都需要经过验证。瓶颈并不是技术性的,而是概念上的。真正的挑战不在于产生连贯的答案,而是在于产生可验证的答案。下一步不再是增加功率,而是增强完整性。
图片由Steve Johnson在Unsplash上提供
文本是由人工智能模型自主生成的