北京时间凌晨一点,OpenAI 突然进行了重大更新。
已经预热了接近一年的 Q*/草莓项目,cs中能够进行高级推理的大语言模型,今晚终于露出了真面目。
OpenAI 发推表示,刚刚推出了 OpenAI o1-preview 模型——名字的含义之前外媒已经爆料过,o1 应该代表着 OpenAI 下一代大模型的 Orion(猎户座)一代。
OpenAI 在
发布文档中写道,新模型在 推理能力上代表了 人工智能能力的 新水平,因此,计数器将重置为 1 ——这意味着未来很可能不会有 GPT-5 了,o1 将代表未来 OpenAI 的最强水平。且从今天开始,ChatGPTPlus 和 Team 用户就能够直接访问模型。
用户可以手动选择使用 o1 模型的【趣探网】 o1-preview 的 每周限制为 30 条消息,o1-mini 的 每周限制为 50 条。
预览版——o1-preview,或者 使用 o1 模型的 小尺寸版——o1-mini。在
OpenAI 的 模型介绍网页上,可以看到 o1 模型的 训练数据截止时间为去年十月份,而最 早的 Q*项目的 爆料,正好大概出现在去年十一月份。OpenAI 憋了
一年的 大招究竟如 何?OpenAI 能否再一次引领大模型的 潮流,甚至让人们看到通用人工智能之路不再遥远?很快,每个人都能检验这一点了。Sam Altman 凌晨一点在 X 上发帖:「需要耐心等待的时刻结束了!」
o1 模型:解决博士级别的科学问题超越人类
截止发稿时,笔者还不能使用 o1 模型。
不过 OpenAI 已经放出了大量相关的 o1 模型表现展示。
最
引人关注的 当然 是 新模型的 推理能力。 Sam Altman 直接在 X 上贴出了 o1 与 GPT-4o 在 数学、编程和 解决博士级别科学题目上的 能力对比。最
左边的 柱形代表目前 OpenAI 的 主力模型 GPT-4o。今天放出来的 o1 预览版为中间的 橙色柱形。可以看到,在 2024 年美国数学邀请赛的竞赛题和 Codeforces 算法竞赛题上,o1 预览版解决数学和
编程问题的 能力,比起 GPT-4o,提升了 5-6 倍。 而可怕的 是 ,深橙色的 柱形,代表真正的 o1,相比于 GPT-4o,提升了 8-9 倍!最
后一个图中,OpenAI 还列出了 人类专家在 解决博士级别科学题目的时的 成功率,大约在 69.7%,而 o1 预览版和 o1,都已经超过 了 人类专家的 水平。OpenAI 的
技术博客提到了 更具体的数字,目前 o1 模型的 成绩,在 美国数学邀请赛上,可以排名进入美国前 500 名。而物理、生物和 化学问题上的 准确度,超过了 人类博士的 水平。在
大模型技术进入公众视野的两年内,一个经常为人们所 使用的 比喻是 ,大模型像一个什么都懂一点的 大学生,在 知识专精方面远远不行,但 是 从天文到地 理,最 基础的 知识都能懂一点点。OpenAI 的 新模型,很有 可能要刷新人们的 这一认知了 。在官方博客中,OpenAI 简单解释了这一进步背后的原理。
类似于人类在回答难题之前可能会思考很长时间,o1 在尝试解决问题时会使用一系列思维。通过强化学习,o1 学会了
磨练其思维链并完善其使用的 策略。它学会了 认识并纠正错误,将棘手的 步骤分解为更简单的 步骤。当当前方法不起作用时,它会尝试另一种方法。这个过 程极大地 提高了模型的 推理能力。在
OpenAI 给的 案例中。GPT-4o 和 o1 模型同时回答同一个问题——读一段长文,然 后做阅读理解。在 o1 模型中,会多一个选项叫做展开思维链。如果不展开思维链,我
们可以看到两个模型本身给出的 答案是 不同的 。而打开思维链后,则会看到一段非常长的 模型和 自己的 思维对话,解释为什么做出了不同的 选择。选 A 吗?emm,好像不是
很好。选 B 吗?好像没有 关联。模型完全在 自己和 自己提问和 回答,最 后判断出了 哪个答案更好。而在另一个例子中,解决化学问题时,我们可以看到 o1 模型甚至自己在选择多种方案对比。
标准的计算方式是这样。但是我们也可以这么计算,但这样或许没有必要?
在多次纠正自己之后,它得出了正确的答案。
之前,也
已经有 很多报道透露过 o1 模型能够有 高推理能力的 原理——这一训练方法,最 早来自于 斯坦福大学 2022 年开发的 一种「自学推理」(Self-Taught Reasoner,STaR)。后来研究人员进一步开发了
一种名为"Quiet-STaR"的 新技术,翻译过 来大概为"安静的 自学推理"。核心为在每个输入 token 之后插入一个"思考"步骤,让 AI 生成内部推理。然 后,系统会评估这些推理是 否有 助于 预测后续文本,并相应地 调整模型参数。这也 是 人们推测 OpenAI 最 早的 模型项目为什么叫 Q*(读作 Q Star)的原因。在
o1 模型出现之前,用户通常也 可以自己通过 和 模型对话的 方式,让模型进行一步一步的 思考,也 就是 所 谓的慢思考,进行更准确的 回答。但 是 很明显,o1 模型此次将思维链放大到了 完全不同的 量级上。而且
,在 之前的 用户 prompt 引导中,模型能够回答出什么答案,最 终也还要被模型能力限制。而通过 不同的 训练方式训练出来的 o1 模型,很有 可能能够通过 自己的 推理,超越自身训练材料的 限制,产出更高级和 准确的 答案。在复杂推理任务上的进步,可能对编程和科学研究两个方向产生直接的推动。
OpenAI 提到,在
未来,医疗保健研究人员可以使用 o1 来注释细胞测序数据,物理学家可以使用 o1 生成量子光学所 需的 复杂数学公式,所 有领域的 开发人员可以使用 o1 来构建和 执行多步骤工作流程。OpenAI提供了一个例子,真正做到了只使用提示词,就完成了一个游戏的编程。
而推理能力的
进步,如 果能够进一步消除模型的 幻觉,还可能对 AI 应用的 建构产生间接的影响。对未来的 AI安全也 有 积极的影响——之前的 一些通过 提示词工程误导模型进行错误输出的 手段,可能会直接被模型通过更强的 思考能力解决。OpenAI o1-preview 将在今天开始能够在 ChatGPT 上使用,并提供给受信任的API用户。
价格没涨,OpenAI 用 o1-mini 解决推理成本问题
在
OpenAI 此次发布之前,曾有 不少媒体爆料,新模型因为内部推理链条较长,对于 推理的 算力成本的 需求进一步增高,OpenAI 很有 可能将提高使用模型的 费用,甚至最 离谱的 猜测数字达到每月 2000 美金。而此次 OpenAI 的
发布,却令人惊讶,新模型的 使用价格并没有 上涨,虽然因为推理成本的 原因,使用次数受到了大大的 限制。o1-preview 的 每周限制使用条数为 30 条消息。除了
限制使用条数,OpenAI管控推理成本的另一个重要举措,是 随着 o1 模型的 推出,同时推出了 o1-mini 版。OpenAI 没有
具体说明 o1-mini 的 参数量有 多大,但 通过 技术文档可以看出,o1mini 版,和 o1 版上下文长度没有 区别,甚至最 大输出 token 数更高。OpenAI 表示 o1-mini 尤其擅长准确生成和
调试复杂代码,对于 开发人员尤其有 用。作为较小的 模型,o1-mini 比 o1-preview 便宜 80%,这使其成为需要推理但 不需要广泛的 世界知识的 应用程序的 强大且 经济高效的 模型。OpenAI 甚至还计划之后为所有 ChatGPT 免费用户提供 o1-mini 访问权限。
不过
,作为新模型,o1 系列模型,目前仍然 不能浏览网页以获取信息以及上传文件和 图像。OpenAI 也 提示道,GPT-4o 在 短期内,在某些任务上会更强一些。Scaling Law 后最重要的进展?
事实上,此次发布了新的模型,甚至不是 OpenAI 的发布中唯一重要的事情。
OpenAI 还提及了自己训练中发现的一个现象:随着更多的强化学习(训练时计算)和更多的思考时间(测试时计算),o1 的性能能持续提高。扩展这种方法的限制与 LLM 预训练的限制有很大不同。
事实上,英伟达的
具身团队领导者 Jim Fan 直接在 X 上点评了 这一事件的 历史意义——模型不仅仅拥有 训练时的 scaling law,还拥有 推理层面的 scaling law,双曲线的 共同增长,将突破之前大模型能力的 提升瓶颈。Jim Fan 表示,2022 年,人们提出了
原始的 scaling law(尺度定律),大概意为随着 模型的 参数量、数据量和 计算量的 增加,模型的 性能能够不断提高。这指的
是 在 模型的 训练过 程中。而 scaling law 在 今年看起来,似乎 已经有 停滞的 意味——他 提到在 self-rewarding language 文章中,感受到 3 轮自我 提升似乎 是 大语言模型的 饱和 极限了 。而此次 OpenAI 新模型,除了
在 训练时,通过增大参数量和 数据量,得到了 性能上的 提升,同时通过 增加推理时间——也 就是 前面所 说的 模型在 自我内部思考的 时间——得到了能力上的 提升。也就是说,如果模型未来自己和自己思考的时间越长,得到的答案可能会越准确。这很接近于我们对AI的终极想象了——像最早在 AlphaGo 中所展现出来的,AI 通过自己和自己下棋,提升自己的棋艺。
OpenAI 的新模型,展现出的,是一条新的大模型的提升路径。
Jim Fan 在
X 上的 一句话令人耸动:「之前,没人能将 AlphaGo 的 成功复制到大模型上,使用更多的 计算让模型走向超人的 能力。目前,我们已经翻过 这一页了 。」回看 2023 年,许多人在问,Ilya 看到了什么?
大家都怀疑是一个超级强有力的模型——是的,此次发布的 o1 模型确实很强。
但或许,更有可能是这个——推理层面的 scaling law 的发现,再一次让人们意识到,超人的AI,或许不再遥远。