OpenAI员工指责xAI公司AI模型基准测试结果误导性-通通知道

近日，OpenAI的一名员工公开指责埃隆·马斯克旗下的xAI公司，称其发布的最新AI模型Grok3的基准测试结果具有误导性。这一争议引起了广泛关注，并引发了关于AI基准测试公正性和透明度的讨论。

xAI在其博客上发布了一张图表，展示了Grok3在AIME2025（一项高难度数学考试题集）上的表现。根据该图表，Grok3的两个版本——Grok3 Reasoning Beta和Grok3 mini Reasoning——在AIME2025上的表现超过了OpenAI当前最强的可用模型o3-mini-high。然而，OpenAI的员工指出，xAI的图表并未包含o3-mini-high在“cons@64”条件下的得分。“cons@64”是指允许模型对每个问题尝试64次，并将出现频率最高的答案作为最终答案，这种方式通常会显著提升模型的基准测试分数。如果省略这一数据，可能会让人误以为某个模型的表现优于另一模型。

在AIME2025的“@1”条件下（即模型首次尝试的得分），Grok3的两个版本得分低于o3-mini-high。尽管如此，xAI仍在宣传中坚称Grok3为“世界上最聪明的AI”。对此，xAI联合创始人伊戈尔·巴布什金辩称，OpenAI过去也曾发布过类似的可能具有误导性的基准测试图表。

这场争议凸显了AI基准测试在传达模型局限性和优势方面的不足。AI研究员内森·兰伯特指出，更重要的是了解每个模型达到最佳分数所需的计算成本。专家呼吁，除了企业内部加大对基准测试的重视外，还应建立行业监管机制，以确保测试的公正性和准确性。这场争论不仅影响了两家公司的声誉，也反映了人工智能领域在快速发展中所面临的挑战。

alt