首页 科技 正文

OpenAI 发布新模型 奥特曼:耐心时刻结束了

摘要:OpenAI 发布新模型 奥特曼:耐心时刻结束了,下面是趣探网小编收集整理的内容,希望对大家有帮助!

北京时间凌晨一点,OpenAI 突然进行了重大更新。

已经预热了接近一年的 Q*/草莓项目,cs中能够进行高级推理的大语言模型,今晚终于露出了真面目。

网络配图

OpenAI 发推表示,刚刚推出了 OpenAI o1-preview 模型——名字的含义之前外媒已经爆料过,o1 应该代表着 OpenAI 下一代大模型的 Orion(猎户座)一代。

OpenAI 在26656666发布文档中写道,新模型在77545678推理能力上代表了14189046人工智能能力的71785925新水平,因此,计数器将重置为 1 ——这意味着未来很可能不会有 GPT-5 了,o1 将代表未来 OpenAI 的最强水平。

且从今天开始,ChatGPTPlus 和 Team 用户就能够直接访问模型。

用户可以手动选择使用 o1 模型的64569014预览版——o1-preview,或者7980835使用 o1 模型的91761800小尺寸版——o1-mini。【趣探网】#病逝#o1-preview 的77159957每周限制为 30 条消息,o1-mini 的24654297每周限制为 50 条。

66522469 OpenAI 的32976526模型介绍网页上,可以看到 o1 模型的80908475训练数据截止时间为去年十月份,而最50390356早的65187532 Q*项目的72821268爆料,正好大概出现在去年十一月份。

OpenAI 憋了83780788一年的40255942大招究竟如100072121何?OpenAI 能否再一次引领大模型的97984788潮流,甚至让人们看到通用人工智能之路不再遥远?很快,每个人都能检验这一点了。

Sam Altman 凌晨一点在 X 上发帖:「需要耐心等待的时刻结束了!」

网络配图

o1 模型:解决博士级别的科学问题超越人类

截止发稿时,笔者还不能使用 o1 模型。

不过 OpenAI 已经放出了大量相关的 o1 模型表现展示。#超凡先锋#

64345912引人关注的89500535当然350925468495577新模型的78941780推理能力。#斯蒂尔#Sam Altman 直接在709394 X 上贴出了 o1 与91051317 GPT-4o 在81861259数学、编程和86051705解决博士级别科学题目上的44400784能力对比。

网络配图

97162066左边的14096619柱形代表目前 OpenAI 的79723061主力模型 GPT-4o。今天放出来的89732643 o1 预览版为中间的84446864橙色柱形。

可以看到,在 2024 年美国数学邀请赛的竞赛题和 Codeforces 算法竞赛题上,o1 预览版解决数学和34884299编程问题的1936158能力,比起 GPT-4o,提升了8165068 5-6 倍。#越野#而可怕的3561174950163622,深橙色的82062754柱形,代表真正的34744834 o1,相比于52973162 GPT-4o,提升了57434518 8-9 倍!

62340608后一个图中,OpenAI 还列出了80506449人类专家在41077465解决博士级别科学题目的时的9253690成功率,大约在233507 69.7%,而 o1 预览版和92736950 o1,都已经超过9697600075060889人类专家的51616725水平。

OpenAI 的86440095技术博客提到了7388031更具体的数字,目前 o1 模型的70220977成绩,在74866379美国数学邀请赛上,可以排名进入美国前 500 名。而物理、生物和19920707化学问题上的10000280准确度,超过了23940224人类博士的23639489水平。

75596216大模型技术进入公众视野的两年内,一个经常为人们所797351641493296使用的60741456比喻是13039929,大模型像一个什么都懂一点的12254898大学生,在97260756知识专精方面远远不行,但3399087937761813从天文到地97556256理,最12195720基础的85081436知识都能懂一点点。OpenAI 的87535438新模型,很有40016241可能要刷新人们的96223911这一认知了67259990

在官方博客中,OpenAI 简单解释了这一进步背后的原理。

类似于人类在回答难题之前可能会思考很长时间,o1 在尝试解决问题时会使用一系列思维。通过强化学习,o1 学会了47675456磨练其思维链并完善其使用的8907009策略。它学会了70377005认识并纠正错误,将棘手的62426346步骤分解为更简单的19860333步骤。当当前方法不起作用时,它会尝试另一种方法。这个过79769035程极大地42136763提高了模型的88079944推理能力。

网络配图

网络配图

38950763 OpenAI 给的19705412案例中。GPT-4o 和11523482 o1 模型同时回答同一个问题——读一段长文,然45578351后做阅读理解。在14508083 o1 模型中,会多一个选项叫做展开思维链。

如果不展开思维链,我47249022们可以看到两个模型本身给出的44416634答案是27243611不同的12475356。而打开思维链后,则会看到一段非常长的68086220模型和58209299自己的25839685思维对话,解释为什么做出了不同的63648738选择。

选 A 吗?emm,好像不是14348184很好。选 B 吗?好像没有61719470关联。模型完全在58539351自己和81440847自己提问和24281340回答,最78039464后判断出了9081322哪个答案更好。

网络配图

网络配图

而在另一个例子中,解决化学问题时,我们可以看到 o1 模型甚至自己在选择多种方案对比。

标准的计算方式是这样。但是我们也可以这么计算,但这样或许没有必要?

在多次纠正自己之后,它得出了正确的答案。

之前,也29942787已经有33969324很多报道透露过5304117 o1 模型能够有84544612高推理能力的60708498原理——这一训练方法,最95262281早来自于81072154斯坦福大学 2022 年开发的37815741一种「自学推理」(Self-Taught Reasoner,STaR)。

后来研究人员进一步开发了2852056一种名为"Quiet-STaR"的6302251新技术,翻译过29860379来大概为"安静的92737772自学推理"。核心为在每个输入 token 之后插入一个"思考"步骤,让 AI 生成内部推理。然96617506后,系统会评估这些推理是17798869否有98287217助于62707791预测后续文本,并相应地5142552调整模型参数。这也7061940323220607人们推测 OpenAI 最24037941早的31752623模型项目为什么叫 Q*(读作 Q Star)的原因。

39280570 o1 模型出现之前,用户通常也90506055可以自己通过242105746694685模型对话的26922744方式,让模型进行一步一步的28135294思考,也84985229就是204425562891049578342176谓的慢思考,进行更准确的5745548回答。但6630799579977119很明显,o1 模型此次将思维链放大到了82053054完全不同的47529185量级上。

而且64905827,在94198652之前的71876703用户 prompt 引导中,模型能够回答出什么答案,最48550294终也还要被模型能力限制。而通过350060不同的57468698训练方式训练出来的10020974 o1 模型,很有58378150可能能够通过88386003自己的30721333推理,超越自身训练材料的81649694限制,产出更高级和93900666准确的2097378答案。

在复杂推理任务上的进步,可能对编程和科学研究两个方向产生直接的推动。

OpenAI 提到,在87674753未来,医疗保健研究人员可以使用 o1 来注释细胞测序数据,物理学家可以使用 o1 生成量子光学所4153605752475628需的90585099复杂数学公式,所1332580215549757有领域的40094684开发人员可以使用 o1 来构建和81534411执行多步骤工作流程。

OpenAI提供了一个例子,真正做到了只使用提示词,就完成了一个游戏的编程。

而推理能力的65369922进步,如81149223果能够进一步消除模型的27299699幻觉,还可能对 AI 应用的50683951建构产生间接的影响。对未来的74033595AI安全也2289056866885537积极的影响——之前的34764079一些通过59035153提示词工程误导模型进行错误输出的60553836手段,可能会直接被模型通过更强的51598512思考能力解决。

OpenAI o1-preview 将在今天开始能够在 ChatGPT 上使用,并提供给受信任的API用户。

价格没涨,OpenAI 用 o1-mini 解决推理成本问题

29099785 OpenAI 此次发布之前,曾有34391203不少媒体爆料,新模型因为内部推理链条较长,对于36086652推理的1199995算力成本的78470874需求进一步增高,OpenAI 很有28792666可能将提高使用模型的35336427费用,甚至最39771013离谱的84256980猜测数字达到每月 2000 美金。

而此次 OpenAI 的58726025发布,却令人惊讶,新模型的32062642使用价格并没有32358484上涨,虽然因为推理成本的71940200原因,使用次数受到了大大的20621720限制。o1-preview 的87057445每周限制使用条数为 30 条消息。

除了27195479限制使用条数,OpenAI管控推理成本的另一个重要举措,是23559446随着35677784 o1 模型的97967793推出,同时推出了36081637 o1-mini 版。

网络配图

OpenAI 没有31661238具体说明 o1-mini 的2909109参数量有29527684多大,但51710024通过15527131技术文档可以看出,o1mini 版,和83214538 o1 版上下文长度没有52708941区别,甚至最704309大输出 token 数更高。

OpenAI 表示 o1-mini 尤其擅长准确生成和56505644调试复杂代码,对于72556226开发人员尤其有88231747用。作为较小的5372987模型,o1-mini 比 o1-preview 便宜 80%,这使其成为需要推理但51497592不需要广泛的62048295世界知识的89537997应用程序的631598强大且74571548经济高效的31691399模型。

OpenAI 甚至还计划之后为所有 ChatGPT 免费用户提供 o1-mini 访问权限。

不过32796678,作为新模型,o1 系列模型,目前仍然67148483不能浏览网页以获取信息以及上传文件和94020693图像。OpenAI 也69722814提示道,GPT-4o 在22922189短期内,在某些任务上会更强一些。

Scaling Law 后最重要的进展?

事实上,此次发布了新的模型,甚至不是 OpenAI 的发布中唯一重要的事情。

OpenAI 还提及了自己训练中发现的一个现象:随着更多的强化学习(训练时计算)和更多的思考时间(测试时计算),o1 的性能能持续提高。扩展这种方法的限制与 LLM 预训练的限制有很大不同。

网络配图

事实上,英伟达的27470147具身团队领导者30120840 Jim Fan 直接在4417371 X 上点评了92670794这一事件的88857527历史意义——模型不仅仅拥有33108360训练时的70859376 scaling law,还拥有86417889推理层面的29256217 scaling law,双曲线的10952824共同增长,将突破之前大模型能力的18242386提升瓶颈。

Jim Fan 表示,2022 年,人们提出了62987328原始的80539267 scaling law(尺度定律),大概意为随着27247320模型的95735398参数量、数据量和56063751计算量的73599259增加,模型的36165827性能能够不断提高。

这指的750356572797523972791254模型的86697613训练过57028290程中。而 scaling law 在54598060今年看起来,似乎6148544已经有49578315停滞的66865238意味——他45503224提到在46633654 self-rewarding language 文章中,感受到 3 轮自我2656530提升似乎743973884497737大语言模型的40429576饱和78095496极限了71765998

而此次 OpenAI 新模型,除了5592352982633786训练时,通过增大参数量和42965649数据量,得到了52058107性能上的72125667提升,同时通过21074422增加推理时间——也83505596就是33457867前面所9069609133826806说的83428736模型在25729488自我内部思考的65745740时间——得到了能力上的85772529提升。

也就是说,如果模型未来自己和自己思考的时间越长,得到的答案可能会越准确。这很接近于我们对AI的终极想象了——像最早在 AlphaGo 中所展现出来的,AI 通过自己和自己下棋,提升自己的棋艺。

OpenAI 的新模型,展现出的,是一条新的大模型的提升路径。

Jim Fan 在21754963 X 上的69958862一句话令人耸动:「之前,没人能将 AlphaGo 的76496799成功复制到大模型上,使用更多的74857580计算让模型走向超人的63218315能力。目前,我们已经翻过54739225这一页了32553880。」

回看 2023 年,许多人在问,Ilya 看到了什么?

大家都怀疑是一个超级强有力的模型——是的,此次发布的 o1 模型确实很强。

但或许,更有可能是这个——推理层面的 scaling law 的发现,再一次让人们意识到,超人的AI,或许不再遥远。

海报

本文转载自互联网,如有侵权,联系删除

本文地址:https://qutake.com/keji/32172.html

相关推荐

感谢您的支持
文章目录