以上内容由均由人工智能模型辅助生成,其生成内容的准确性和完整性无法保证,也不代表通义的态度或观点。

OpenAI员工指责xAI公司AI模型基准测试结果误导性

科技大神柯林
02-25 02:405
基于 5 个内容来源

近日,OpenAI的一名员工公开指责埃隆·马斯克旗下的xAI公司,称其发布的最新AI模型Grok3的基准测试结果具有误导性。这一争议引起了广泛关注,并引发了关于AI基准测试公正性和透明度的讨论。

xAI在其博客上发布了一张图表,展示了Grok3在AIME2025(一项高难度数学考试题集)上的表现。根据该图表,Grok3的两个版本——Grok3 Reasoning Beta和Grok3 mini Reasoning——在AIME2025上的表现超过了OpenAI当前最强的可用模型o3-mini-high。然而,OpenAI的员工指出,xAI的图表并未包含o3-mini-high在“cons@64”条件下的得分。“cons@64”是指允许模型对每个问题尝试64次,并将出现频率最高的答案作为最终答案,这种方式通常会显著提升模型的基准测试分数。如果省略这一数据,可能会让人误以为某个模型的表现优于另一模型。

在AIME2025的“@1”条件下(即模型首次尝试的得分),Grok3的两个版本得分低于o3-mini-high。尽管如此,xAI仍在宣传中坚称Grok3为“世界上最聪明的AI”。对此,xAI联合创始人伊戈尔·巴布什金辩称,OpenAI过去也曾发布过类似的可能具有误导性的基准测试图表。

这场争议凸显了AI基准测试在传达模型局限性和优势方面的不足。AI研究员内森·兰伯特指出,更重要的是了解每个模型达到最佳分数所需的计算成本。专家呼吁,除了企业内部加大对基准测试的重视外,还应建立行业监管机制,以确保测试的公正性和准确性。这场争论不仅影响了两家公司的声誉,也反映了人工智能领域在快速发展中所面临的挑战。