自拍偷拍

麻豆 o3来了！编程置身东谈主类世界前200，破解陶哲轩说难的数学测试，北大学友任泓宇现身直播间
发布日期：2024-12-22 08:13 点击次数：203

麻豆 o3来了！编程置身东谈主类世界前200，破解陶哲轩说难的数学测试，北大学友任泓宇现身直播间

OpenAI 公布下一代模子麻豆，o1 之后径直o3！

"双 12 "直播四肢终末一天，终于来了个大的，奥特曼本东谈主也再次现身直播间。

o3 比拟 o1 最特出的收成，一是顶尖圭表员竞赛CodeForces分数跳动 2700，东谈主类跳动这个分数的咫尺唯一不到 200 个。

二是在为 AGI 准备的测试ARC-AGI上分数从 32% 跃升到了 75.7%、87.5%。

为什么有两个收成呢？

因为 o3 相沿低念念考进度和高念念考进度两种建立，高念念考进度破耗的算力（横轴）也径直拉满。

ARC-AGI 是 Keras 之父 Fran ç ois Chollet 发起的测试基准，典型题目为图形逻辑推理。

另一项测试是堪称最难数学测试的EpochAI Frontier Math，包含最新未公开前沿题目。

此前陶哲轩对这项测试的第一印象是"可能难住 AI 好几年"。

o3 在测试中比之前 SOTA 从 2 分擢升到 25 分。

东谈主类专科数学家管束其中一齐题目也要破耗数小时到数天，当今 o3 只需要念念考几分钟了。

此次直播还公布了o3-mini，相沿低中高三种念念考进度建立。

主要展示了代码才调，低建立下 o3-mini 和 o1-mini 差未几，中高建立照旧跳动了 o1 郑再版。

参与征询的北大学友任泓宇麻豆，现场展示了 o3-mini 的编程才调。

他使用了异常版块的 ChatGPT，称为 ChatGPT α。

任务如下：

写一个 Python 剧本，在土产货为一个带有大文本框的 HTML 文献启动工作器。当我在该框中输入文本并按下提交时，它应该将该代码请求发送到 OpenAl o3-mini API ，使用 medium reasoning_effort ，取得生成的代码，将其保存到桌面上的临时文献中，然后在新的 Python 末端中膨大该文献。还有一些细节：

不错在 ~/api_key 中找到我的 API 密钥

请在向 API 的请求中添加一些非凡的请示，指定它只应复返莫得任何步地或 Markdown 的原始代码

你将在 Mac 札记本电脑环境启动

o3-mini 的念念考进程用了 38 秒，然后代码秒出，一次启动得胜。