o3-mini推理模型击败DeepSeekR1 引发广泛关注
OpenAI 最近推出了全新的推理模型 o3-mini,这款模型不仅首次向免费用户开放,而且相比之前的 o1 系列,成本降低了 15 倍。o3-mini 的推出迅速引发了广泛关注,尤其是在与国产大模型 DeepSeek R1 的对比中。
在 AI 社区中,开发者们热衷于用各种任务来测试不同模型的性能。其中一个经典的任务是编写一个 Python 脚本,让一个球在某个形状内弹跳,并确保该形状缓慢旋转且球始终停留在形状内。这种模拟弹跳球的测试需要模型具备良好的碰撞检测能力,以及对物理规律的理解。
此前,DeepSeek R1 在这一任务中表现出色,甚至超越了 OpenAI 的 o1 pro 模型。然而,o3-mini 上线后,情况发生了变化。有开发者使用相同的提示词:“编写一个 Python 程序,展示一个小球在一个旋转的六边形内弹跳,小球应受到重力和摩擦力的影响,并在碰到旋转墙壁时实现真实的反弹效果。” 结果显示,o3-mini 在碰撞和弹跳效果方面表现得更为出色,而 DeepSeek R1 版本的小球则似乎不受重力控制。
另一个类似的测试是编写一个 Python 脚本,模拟一个球在四维超立方体内部弹跳。o3-mini 不仅展示了稳定的几何结构,还使小球在四维空间内的运动轨迹显得更加自然。相比之下,DeepSeek R1 对四维超立方体的理解不够深入,小球的运动轨迹显得有些“飘忽不定”。
此外,AIGC 从业者 @myapdx 进行了一项更复杂的测试,要求模型编写一个 p5.js 脚本,模拟 100 个彩色小球在一个球体内部弹跳,每个小球都应留下一条逐渐消失的轨迹,显示其最近的路径。容器球体应缓慢旋转,并确保实现适当的碰撞检测,使小球保持在球体内部。o3-mini 完美满足了所有这些要求,而 DeepSeek R1 的表现也相当不错。
这些测试结果表明,o3-mini 在理 解真实世界的物理规律方面可能更具优势。OpenAI 也在其发布博客中强调,在博士级科学问题上,o3-mini-low 的表现优于 o1-mini,而 o3-mini-high 的表现与 o1 相当,并在生物学、化学和物理学领域取得了显著进步。
尽管如此,也有一些网友猜测 DeepSeek R1 的程序有时只有一个球,可能是由于其过度思考导致的。总体来看,o3-mini 和 DeepSeek R1 各有千秋,但 o3-mini 在某些特定任务上的表现确实令人印象深刻。