揭秘OpenAI的野心：让AI为你搞定一切

向桃 • 2025年09月30日 21:24 • 天下百科 • 阅读 30

　　2022 年，亨特・莱特曼以研究员身份加入 OpenAI 后不久，便见证了同事们推出 ChatGPT—— 这款产品后来成为史上增长最快的产品之一。与此同时，莱特曼则在一个团...

　　2022 年，亨特・莱特曼以研究员身份加入 OpenAI 后不久，便见证了同事们推出 ChatGPT—— 这款产品后来成为史上增长最快的产品之一。与此同时，莱特曼则在一个团队中默默耕耘，致力于教 OpenAI 的模型解决高中数学竞赛题。

　　如今，这个名为 MathGen 的团队被视为 OpenAI 打造 AI 推理模型这一行业领先举措的关键力量，而 AI 推理模型正是能像人类一样在电脑上完成任务的 AI 代理的核心技术。

　　“我们当时试图让模型在数学推理方面做得更好，因为那时它们在这方面还很薄弱，” 莱特曼在描述 MathGen 早期工作时对 TechCrunch 表示。

　　OpenAI 的模型如今远非完美 —— 该公司最新的 AI 系统仍会出现幻觉，其代理在处理复杂任务时也力不从心。

　　但它的最先进模型在数学推理方面已有显著进步。OpenAI 的一款模型最近在国际数学奥林匹克竞赛（一项面向全球最聪明高中生的数学竞赛）中斩获金牌。OpenAI 认为，这些推理能力将迁移到其他学科，最终为该公司一直梦寐以求的通用代理提供动力。

　　ChatGPT 的诞生纯属意外 —— 一次低调的研究预览意外走红，演变成消费级业务 —— 但 OpenAI 的代理是该公司多年来精心努力的成果。

　　“最终，你只需向电脑提出需求，它就会为你完成所有这些任务，”OpenAI 首席执行官山姆・奥特曼在 2023 年公司首届开发者大会上表示。“这些能力在 AI 领域通常被称为代理。其带来的好处将是巨大的。”

　　这些代理能否实现奥特曼的愿景仍有待观察，但 OpenAI 在 2024 年秋季推出首个 AI 推理模型 o1 时，震惊了世界。不到一年后，促成这一突破的 21 名基础研究员成为硅谷最炙手可热的人才。

　　马克・扎克伯格招募了 5 名参与 o1 研发的研究员，让他们加入 Meta 新成立的专注于超级智能的部门，并为部分人提供了超过 1 亿美元的薪酬方案。其中之一的赵胜佳最近被任命为 Meta 超级智能实验室的首席科学家。

　　强化学习的复兴

　　OpenAI 推理模型和代理的崛起与一种名为强化学习（RL）的机器学习训练技术息息相关。强化学习在模拟环境中向 AI 模型反馈其选择是否正确。

　　强化学习已应用数十年。例如，2016 年，在 OpenAI 于 2015 年成立约一年后，谷歌 DeepMind 使用强化学习创建的 AI 系统 AlphaGo 在围棋比赛中击败世界冠军，引发全球关注。

　　大约在那时，OpenAI 的首批员工之一安德烈・卡帕西开始思考如何利用强化学习创建一个能使用电脑的 AI 代理。但 OpenAI 花了数年时间才开发出必要的模型和训练技术。

　　到 2018 年，OpenAI 在 GPT 系列中率先推出首个大型语言模型，该模型在海量互联网数据和大型 GPU 集群上进行预训练。GPT 模型在文本处理方面表现出色，最终催生出 ChatGPT，但在基础数学方面却存在短板。

　　直到 2023 年，OpenAI 才取得突破，最初将其命名为 “Q*”，后又改称 “Strawberry”。这一突破通过结合大型语言模型、强化学习和一种名为测试时计算的技术实现。后者让模型在给出答案前，有额外的时间和计算能力来规划和解决问题，并验证每一步骤。

　　这使得 OpenAI 能够引入一种名为 “思维链”（CoT）的新方法，该方法提高了 AI 在处理未见过的数学问题时的表现。

　　“我能看到模型开始进行推理，” 埃尔・基什基说。“它会发现错误并回溯，还会‘感到沮丧’。这真的就像在阅读一个人的想法。”

　　尽管这些技术本身并非新颖，但 OpenAI 独特地将它们结合起来，创建了 Strawberry，这直接促成了 o1 的开发。OpenAI 很快意识到，AI 推理模型的规划和事实核查能力可用于为 AI 代理提供动力。

　　“我们解决了一个我多年来一直冥思苦想的问题，” 莱特曼说。“这是我研究生涯中最激动人心的时刻之一。”

　　扩展推理能力

　　凭借 AI 推理模型，OpenAI 确定了两个可用于改进 AI 模型的新方向：在 AI 模型的后期训练中使用更多计算能力，以及让 AI 模型在回答问题时有更多时间和处理能力。

　　“作为一家公司，OpenAI 不仅关注事物的现状，还非常关注它们的扩展方式，” 莱特曼说。

　　两位消息人士告诉 TechCrunch，在 2023 年 Strawberry 取得突破后不久，OpenAI 成立了一个由研究员丹尼尔・塞尔萨姆领导的 “代理” 团队，以在这一新范式上取得进一步进展。尽管该团队名为 “代理”，但 OpenAI 最初并未像我们如今所想的那样区分推理模型和代理。该公司只是想让 AI 系统能够完成复杂任务。

　　最终，塞尔萨姆领导的代理团队的工作成为开发 o1 推理模型这一更大项目的一部分，该项目的负责人包括 OpenAI 联合创始人伊利亚・萨茨凯弗、首席研究官马克・陈和首席科学家雅各布・帕乔基。

　　OpenAI 必须投入宝贵的资源 —— 主要是人才和 GPU—— 来开发 o1。纵观 OpenAI 的历史，研究人员必须与公司领导层协商以获取资源，而展示突破性成果是确保获得资源的可靠方法。

　　“OpenAI 的核心特点之一是，研究方面的一切都是自下而上的，” 莱特曼说。“当我们展示（o1 的）证据时，公司表示‘这很有意义，让我们继续推进’。”

　　一些前员工表示，这家初创公司开发通用人工智能（AGI）的使命是在 AI 推理模型方面取得突破的关键因素。通过专注于开发尽可能智能的 AI 模型，而非产品，OpenAI 能够将 o1 置于其他工作之上。而在竞争激烈的 AI 实验室中，对这类想法进行如此大规模的投资并非总能实现。

　　事实证明，尝试新训练方法的决定是有先见之明的。到 2024 年底，几家领先的 AI 实验室开始发现，通过传统预训练扩展创建的模型回报递减。如今，AI 领域的大部分动力来自推理模型的进步。

　　AI “推理” 意味着什么？

　　在很多方面，AI 研究的目标是用计算机重现人类智能。自 o1 推出以来，ChatGPT 的用户体验中充满了更像人类的功能，如 “思考” 和 “推理”。

　　当被问及 OpenAI 的模型是否真正在推理时，埃尔・基什基有所保留，称他从计算机科学的角度看待这个概念。

　　“我们正在教模型如何高效地消耗计算资源来获取答案。所以如果你从这个角度定义，是的，它正在推理，” 埃尔・基什基说。

　　莱特曼则更关注模型的结果，而不太在意其方式或与人类大脑的关系。

　　“如果模型正在做困难的事情，那么它正在做完成这件事所必需的任何近似推理，” 莱特曼说。“我们可以称之为推理，因为它看起来像这些推理轨迹，但这一切都只是为了打造对很多人来说真正强大且有用的 AI 工具的一种替代说法。”

　　OpenAI 的研究人员指出，人们可能不同意他们对推理的命名或定义 —— 当然，批评者已经出现 —— 但他们认为，这不如其模型的能力重要。其他 AI 研究人员也倾向于认同这一点。

　　非营利组织 AI2 的 AI 研究员内森・兰伯特在一篇博文中将 AI 推理模式比作飞机。他说，两者都是受自然启发的人造系统 —— 分别受人类推理和鸟类飞行启发 —— 但它们通过完全不同的机制运作。这并不会降低它们的有用性，也不会削弱它们实现类似结果的能力。

　　来自 OpenAI、Anthropic 和谷歌 DeepMind 的一群 AI 研究人员在最近的一份立场文件中一致认为，如今人们对 AI 推理模型的理解还不够深入，需要更多的研究。现在就断言这些模型内部到底在发生什么，可能还为时过早。

　　下一个前沿：用于主观任务的 AI 代理

　　如今市场上的 AI 代理在定义明确、可验证的领域（如编码）表现最佳。OpenAI 的 Codex 代理旨在帮助软件工程师分担简单的编码任务。与此同时，Anthropic 的模型在 Cursor 和 Claude Code 等 AI 编码工具中特别受欢迎 —— 这些是人们愿意付费使用的首批 AI 代理中的一部分。

　　然而，像 OpenAI 的 ChatGPT 代理和 Perplexity 的 Comet 这样的通用 AI 代理，在处理许多人们希望自动化的复杂、主观任务时却力不从心。我发现，当尝试使用这些工具进行网上购物或寻找长期停车位时，这些代理花费的时间比我预期的要长，而且还会犯一些愚蠢的错误。

　　当被问及代理在主观任务方面的局限性时，莱特曼说：“与机器学习中的许多问题一样，这是一个数据问题。我现在真正感到兴奋的一些研究是，想办法在可验证性较低的任务上进行训练。我们在如何做这些事情上有了一些线索。”

　　帮助创建国际数学奥林匹克模型和 o1 的 OpenAI 研究员诺姆・布朗告诉 TechCrunch，OpenAI 拥有新的通用强化学习技术，这些技术使他们能够教授 AI 模型那些不易验证的技能。他说，该公司正是通过这种方式构建了在国际数学奥林匹克竞赛中获得金牌的模型。

　　OpenAI 的国际数学奥林匹克模型是一个较新的 AI 系统，它能生成多个代理，这些代理随后同时探索多个想法，然后选择最佳答案。这类 AI 模型正变得越来越受欢迎；谷歌和 xAI 最近也发布了使用这种技术的最先进模型。

　　“我认为这些模型在数学方面的能力会越来越强，而且在其他推理领域也会变得更有能力，” 布朗说。“进步速度快得惊人。我没有理由认为它会放缓。”

　　这些技术可能有助于提高 OpenAI 模型的性能，而这些进步可能会在该公司即将推出的 GPT-5 模型中体现出来。OpenAI 希望通过推出 GPT-5 来巩固其对竞争对手的优势，理想情况下，为开发者和消费者提供最优秀的 AI 模型来驱动代理。

　　但该公司也希望使其产品更易于使用。埃尔・基什基表示，OpenAI 希望开发出能直观理解用户需求的 AI 代理，而无需用户选择特定设置。他说，OpenAI 的目标是构建这样的 AI 系统：知道何时调用特定工具，以及需要推理多长时间。

　　这些想法描绘出 ChatGPT 终极版本的图景：一个能在互联网上为你做任何事情，并理解你希望如何去做的代理。这与如今的 ChatGPT 有很大不同，但该公司的研究正朝着这个方向稳步前进。

　　虽然 OpenAI 无疑在几年前引领了 AI 行业，但如今该公司面临着一大批强劲的对手。问题不再仅仅是 OpenAI 能否实现其代理化的未来，而是该公司能否在谷歌、Anthropic、xAI 或 Meta 之前做到这一点？

本文来自作者[向桃]投稿，不代表发展号立场，如若转载，请注明出处：https://www.fastcode.vip/txbk/202509-44799.html

30 4

本文作者

向桃签约作者

30 文章

2949711 评论

1 粉丝

我是发展号的签约作者[向桃],本篇文章《揭秘OpenAI的野心：让AI为你搞定一切》主要讲述了:　　2022 年，亨特・莱特曼以研究员身份加入 OpenAI 后不久，便见证了同事们推出 ChatGPT—— 这款产品后来成为史上增长最快的产品之一。与此同时，莱特曼则在一个团...

天天新闻

完美世界副本完美世界副本对应地图

完美世界共有好多个副本??1、副本是游戏的重要部分，分为挑战副本和修真副本。挑战副本包括覆霜圣境、覆霜城·上和黄昏圣殿，最低50级才能挑战，掉落装备丰富。修真副本数量众多，如青衣冢、天劫谷等，从29级开始逐级开放，掉落高级装备和精灵，还能解锁新技能。2、就完美国服而言，副本有很多。一般来说几分钟到

巧蕾
2025年03月01日
163
天下百科

智能abc官方下载智能abc安卓版

智能ABC怎么下载?我试过很多次.怎么都下载不下来智能ABC,我智能ABC输入法已经是一款较老的输入法软件，可能不再适用于最新的操作系统。因此，直接在官方网站或常见软件下载平台上找到它的下载链接可能会有困难。不过，你可以尝试在一些软件历史版本归档网站或者论坛中寻找智能ABC的安装包。具体步骤如下：

秋翠
2025年03月05日
91
游戏交流

熙康云医院认购1500万美元理财产品

　　熙康云医院（09686）发布公告，于2025年3月10日，公司向申万宏源金融产品认购1500万美元的理财产品。认购事项的资金来源为公司全球发售的闲置募集资金。

秋蕊
2025年03月11日
93
游戏交流

早教中心加盟费用多少早教中心加盟店排行榜

早教加盟要多少钱?1、品牌加盟费。加盟早教机构意味着使用他人的品牌，首先必须支付加盟费，一般在十几万到几十万之间。场地费用。包括租金和装修，具体费用取决于您期望的场地大小，以及当地的物价和房价。教具设备采购费用。购买教具、玩具、布置等需要一定的资金。加盟优质早教品牌会提供全面的指导，帮助您节省开支

一条小凝阳
2025年03月24日
85
日常分享

gta5飞机怎么开gta5飞机怎么开起落架

gta5怎么开飞机1、靠近飞机就按F键上飞机。按S键将飞机退到滑行道上，需要转弯就按A或D键转弯。摆正飞机就控制飞机滑到跑道上。在跑道上按着W键加速，滑到一段距离就按小键盘5键起飞。飞机起飞后按G键收起起落架，然后控制飞机飞往目的地。空中需要转弯可以按A和D，或小键盘4和6键。2、基础操作：WAS

梦香
2025年03月29日
168
游戏交流

编辑常用微乐跑得快开挂有挂吗(详细开挂教程)（最高法已明确在微信里做这件事是犯罪贵州已有人被抓）

日常生活中，我们用手机给亲朋好友发红包，已经是习以为常的事，但没想到，有人竟然借此机会做这样的事，并且触犯了刑法！近日，话题#用微信群设赌属开设赌场#上了微博热搜。12月25日，最高人民法院发布5件依法严惩网络犯罪指导性案例明确利用微信群设赌属“开设赌场”别以为拉个群赌点小钱没有人会知道，其实已经犯

祭启腾
2025年03月30日
64
游戏交流

火麻籽火麻籽油的功效与作用

赤峰小麻籽(火麻籽)豆腐正确做法是1、首先将豆角切丁煮熟，花生仁炸至酥脆，虾仁去虾线洗净。然后将锅加热，倒入色拉油50克，加入葱、姜、蒜炸香，接着加入麻籽豆腐煸炒几下，再加入所有辅料，最后加入精盐、味精，炒拌均匀后起锅装盘即可。2、原料：麻籽豆腐500克，豆角100克，肉末100克，花生仁50克，

翠菡
2025年04月06日
70
天下百科

安徽确诊病例（安徽新增确诊病例14例无症状感染者317例）

中新网合肥12月5日电(记者吴兰)安徽省卫健委5日消息，12月4日0-24时，安徽省报告新增确诊病例14例，新增无症状感染者317例。上述331例感染者中，蚌埠市39例，宣城市34例，阜阳市30例。12月5日安徽省报告新冠肺炎疫情情况显示，2022年12月4日0-24时，安徽省报告新增确诊病例1

寒云
2025年06月19日
51
天天新闻

上海到成都动车时刻表上海到成都动车时刻表票价

上海到成都高铁票价多少1、直达车次：G1974次：07：17从上海虹桥出发，18：28到达成都东，运行时长11时11分，二等座944元、一等座1535元、商务座2965元。2、上海至成都目前有直达高铁，最快约10小时30分钟可达，二等座票价约669元。高铁线路与车次信息上海虹桥站至成都东站的高铁

夏江澎
2025年07月26日
9
日常分享

四方光电：上半年归母净利润8412.38万元，同比增长103.41%

四方光电8月17日披露半年报，公司上半年实现营业收入5.08亿元，同比增长49.36%；归属于上市公司股东的净利润8412.38万元，同比增长103.41%；基本每股收益0.84元。

碧春
2025年08月17日
9

发表回复

本站作者后才能评论

评论列表（4条）

向桃 2025年09月30日

我是发展号的签约作者“向桃”！

回复
向桃 2025年09月30日

希望本篇文章《揭秘OpenAI的野心：让AI为你搞定一切》能对你有所帮助！

回复
向桃 2025年09月30日

本站[发展号]内容主要涵盖：国足,欧洲杯,世界杯,篮球,欧冠,亚冠,英超,足球,综合体育

回复
向桃 2025年09月30日

本文概览：　　2022 年，亨特・莱特曼以研究员身份加入 OpenAI 后不久，便见证了同事们推出 ChatGPT—— 这款产品后来成为史上增长最快的产品之一。与此同时，莱特曼则在一个团...

回复

揭秘OpenAI的野心：让AI为你搞定一切

本文作者

文章推荐

发表回复

评论列表（4条）

联系我们