最新东京热 AI连高考数学王人能考100多分了？

制服丝袜1

发布日期：2024-09-16 02:09 点击次数：108

大模子又双叒叕进化了最新东京热。

OpenAI发布新一代大模子，据说在推理才智上依然可以并排东谈主类。而况此次莫得像Sora一样的画饼，发布即可用。

那就让咱们望望这个新模子到底是怎样个事！

草莓方针

其实此次OpenAI的发布早有"预谋"，在萨姆奥特曼的twitter上，一直王人在暗意，行将有一款名为"草莓"的AI技俩与公共碰面！

这草莓是啥呢？即是之前一直传言中可以"比好意思"东谈主类，达到AGI（通用东谈主工智能）的大模子。草莓的责任，即是让AI具有推理，缠绵，致使是自我学习的才智，从而匡助东谈主类在医疗，科研，讲授等有着更快更大的冲破。

咱们终于看到了"草莓"，只不外它的名字不是GPT5，而是o1。

凭据官方的先容，o1在推理有关的问题上，比GPT4o有着大幅度的升迁。比如针对好意思国最智谋高中生的数学测试中，昔日GPT4o平均只可在15谈题答对1.8谈，而o1的正确数目飙升到了12.5，要是微调下，o1可以进步好意思国高中生数学奥林匹克的分数线。

通常地，在编码比赛中，分数也从昔日的11分干到了当今的89分，在博士级别的问答中，它也可以进步东谈主类人人。

在信息奥林匹克上，经过微调的o1，分数整整提高到了1000分。这是什么宗旨呢？在东谈主类中，唯有7%的参赛者比AI强，剩下的93%王人被AI打败了！

看完这些，我倏得有种第一次见到Sora嗅觉，这视频真实AI生成的？东谈主类才智临了的防地，就这样被AI攻破了？是不是OpenAI看AI要崩了，又一次画的大饼？

谜底是什么，唯有测过，才了了。此次o1并莫得像Sora一般不可"亵玩”，发布后，就全量推送给订阅用户，也即是说，任何东谈主交上20好意思元，就可以坐窝体验到这个划时间的大模子。

测试完，我有点慌了

那就谣言少说，径直开测，学渣照旧Jumping，咱们一测便知！

咱们折柳用2024年新课标1卷的高考数学题和阿里巴巴全球数学竞赛预选赛的题目来测o1的推理才智。不外要阐明的是，咫尺推送的是o1预览版，它的推理才智和郑再版还有几许差距，是以翌日看到的o1会比当今更强。

咫尺的o1还不可看图，是以此次咱们把数学公式退换成LaTex模式，交给AI解答，而况本年新课标1卷的试题中，有两谈是需要看图的，刨除这两谈题的分数，总分在129分。

在题目输入对话框后，可以看到o1比平素大模子多了一个念念考的经由。比如上图这谈高考数学的多选题，它会先分析题目，然后再找需要用到常识。以这谈题来讲，需要用的即是正态散播的常识，然后再去狡计概率。

在这里也浅易放下这谈题o1的念念考经由，公共可以看下，它全体的念念路和东谈主类念念考如实相配像！

给AI的卷子判完，我径直慌了！91分！要是退换到150分，那即是105分呀，这依然进步我当年的高考分数了。

阿里巴巴数学竞赛的题比较终点，其中大部分王人是评释题，莫得固定谜底，是以咱们就测试了6谈具有准确谜底的题，像底下这种：

答题的所有经由，和东谈主类相配相似，概率论与数理统计忘光的我，基本上也能看明显个大约。

最终6个问题，o1回话对了3个，正确率在50%，诚然莫得进步姜萍的93分，但行为AI来讲，也相配可以了，毕竟是海外数学比赛。

测完下来，嗅觉和AI比拟，我我方像个弱智！当年我高考数学90多分，后果AI不仅在10分钟内作念完题，还考了100多分。我连题目王人看不懂的数学竞赛题，它能答对一半，诚然不如姜萍，但也能秒杀大部分东谈主了。

说好的AI推理才智不如5岁小孩呢？OpenAI怎样倏得就让AI推理才智，噌噌的，进步我这个360个月的婴儿了呢？

念念维链，下个大模子的冲破点

这其中的奥秘就在于念念维链（Chain of Thought），也即是上头提到过的把一个复杂问题，拆成多个小问题，按次照看的门径。

之前念念维链王人是行为教唆词手段来使用。想要AI帮你照看复杂问题，就把这个问题拆解成小问题，然后一个一个的输入给AI。

此次，OpenAI径直把拆解的经由交给AI，东谈主类获得了透顶的安详！实测的后果公共也看到了，AI的逻辑推理才智如实获得了大跨步的前进！

那么OpenAI又是怎样驱散让AI自我完成念念维链的呢？很可惜，咫尺的OpenAI早就Close了，因此此次并莫得公布这些本领细节，但从外传来看，大约是用到了强化学习。

也即是给AI开辟一个规章，这一步逻辑正确+1分，失实-1分，分数越高越好，最终就有了o1。天然其中有好多工程细节，这些王人成为了OpenAI的护城河。

接下来可以笃定的是，念念维链将成为其他家大模子的冲破地方，到时刻谁家模子剖析问题剖析的好，剖析的正确将成为能否当先的要津。

除了数学，有了推理才智的AI在各个地方王人有着更好愚弄。比如OpenAI官方就展示用o1，在不到10分钟内作念出一个小游戏，网友在本体测试中，致使作念出了3D的饕餮蛇。

更让我不测的是，OpenAI还展示了o1在量子物理，基因学，经济学以及领会学带来的匡助，好家伙，这下AI王人可以袒护到这样前沿的边界了？

不外每一次AI冲破，王人有不小的"反作用"，ChatGPT带来论文作秀，Midjourney和Sora带来伪造新闻焦炙，此次o1的"反作用"更大。

之前GPT4安全测试，生物威迫品级为低，而在o1中，生物威迫不仅升级到了化学，生物，核子，发射威迫，品级也升迁到中。

也即是说，"天网"离咱们又进了。AI越强，它酿成的禁绝也越大，怎样甩掉它，将成为和念念维链一样紧迫的事情，就像咱们王人但愿核子发电，而不但愿它爆炸。

从当今启动，各大AI厂商就要考虑这个问题了，不外关于我，我更柔软一个问题，即是以后咱们还需要磨练吗最新东京热，确凿要考的话，能不可让AI替我答一下，毕竟它比我分高！