2024年12月21日,OpenAI在其为期12天发布会活动的最后一天,正式发布了备受期待的o3系列模型。
为什么叫做 o3 呢?而不是o2?OpenAI 公司首席执行官山姆・阿尔特曼(Sam Altman)在今天早上的直播活动,表示是为了规避和英国电信运营商 O2 的商标冲突。
o3 系列模型的特点
o3 系列包括两个模型:o3 和 o3-mini。这些模型被设计用来处理复杂的逻辑问题解决,也就是所谓的“推理”。这种推理能力使得 o3 系列在数学、科学和复杂决策等领域的输出更加可靠和准确。
可调节的推理时间
o3 系列的一个独特功能是其可调节的推理时间。用户可以根据任务的复杂性,将模型设置为低、中、高推理时间。更多的推理时间意味着更高的精确度,使模型能够更准确地处理复杂任务。
内部推理过程
o3 采用“私有思考链”的方法,在响应之前,模型会考虑相关的提示,通过潜在答案进行推理,并最终提供一个经过深思熟虑的响应。虽然这比传统模型慢,但在需要严格分析的领域,它提供了更高的可靠性。
o3 系列与 AGI 的关系
o3 系列在某些条件下接近于人工通用智能(AGI),这是一个大胆的声明。AGI 被广泛定义为能够执行任何人类能够执行的任务的 AI。OpenAI 有自己的定义:“在大多数经济价值工作中超越人类的高级自主系统”。
在 ARC-AGI 基准测试中,o3 在高计算设置下取得了 87.5% 的分数,超过了人类水平的阈值 85%。相比之下,o1 的表现只有 25%-32%。这一成就引发了关于 o3 是否代表向 AGI 迈出重要一步的讨论。
o3 系列的性能突破
o3 系列在多个关键基准测试中打破了记录。在 Frontier Math 测试中,o3 解决了 25.2% 的问题,轻松超过了之前约 2% 的最高分。在编程任务的 SWE-Bench Verified 基准测试中,o3 比 o1 模型提高了 22.8 个百分点。
结论
o3 系列大模型的发布标志着 OpenAI 在人工智能推理能力上的又一进步。这些模型不仅在性能上超越了前代,而且在向 AGI 的道路上迈出了坚实的步伐。随着 o3 和 o3-mini 的进一步测试和部署,我们有望看到人工智能在解决复杂问题上的能力得到显著提升。