父女乱伦文学实测OpenAI最强模子o1：会作念大学数理化但弱智吧依然高深

国产色片

桃乃木香奈黑丝

栏目分类

桃乃木香奈黑丝你的位置：国产色片 > 桃乃木香奈黑丝 > 父女乱伦文学实测OpenAI最强模子o1：会作念大学数理化但弱智吧依然高深

父女乱伦文学实测OpenAI最强模子o1：会作念大学数理化但弱智吧依然高深

发布日期：2024-10-06 04:38 点击次数：124

父女乱伦文学实测OpenAI最强模子o1：会作念大学数理化但弱智吧依然高深

父女乱伦文学

发布之后，各路大神和网友都纷繁用各式问题测试OpenAI o1的进展：

还有东谈主进行了项目锤真金不怕火，恶果被o1浩大的推理能力秀到了。

Q：你的修起中有几个字？

A1：这句话有七个字

A2：一共五个字

量子位也进行了一番实测，底下就一都来了解。

推理能力猛进化，但如故难敌弱智吧

该说不说，o1诚然在推理能力上得回了很大超过，但濒临充满神思的弱智吧问题，如故掉进了东谈主类挖的罗网。

天然了，对于肃肃问题，o1的进展如故很强的，最初望望逻辑推理能力。

念念考这谈题时，preview和mini区别用时21秒和14秒，不外从文本上看mini念念考得反而更多。

其中还出现了一些西里尔字母乱入，不外对举座影响不大。

最终，二者也都给出了正确的谜底——丙。

值得提神的是，mini（右）的解答当中还出现了修正的经由。

接下来看下o1在大学数理化题目上的进展。

最初是这谈考研数学真题，触及的学问点诟谇面积分、高斯定理等内容：

如故区别看下preview和mini的念念考，不错看到mini的念念考经由大要是preview的圣洁版，天然速率也快了不少。

不外preview给的念念考经由当中再次出现乱入，此次是泰语。

实质解答经由亦然preview比mini愈加详备，不外不知谈为什么preview用了英文回答。

临了的计较恶果化简口头也有所不同，但数值上是稀奇的，而且也作念对了。

对比4o这边，先偷懒后舞弊（调用了代码解释器），恶果临了谜底如故错的。

第二谈数学题对于概率父女乱伦文学。

这谈题preview依然是用英语进行了作答，行径比mini愈加详备，天然都是对的。

而4o的谜底前边的经由倒是基本都对，然则临了一步的求解出现了问题，只给出了1这一个解，况兼不是本题谜底。

物理方面，这里选拔了一谈大学物理中的光学题：

preview（左）和mini都给出了正确解答，内容也基本一致。

化学的题目是一谈亏蚀题，主要触及电化学等内容。

一本大道香蕉视频大在线

这里把AgCl/Ag的圭臬电极电势看成已知要求一同输入给模子。

Preview（左）和mini梗概的解题念念路如故差未几，在计较行径上有指对运算先后的辞别，天然临了的恶果如故对的。

临了一项测试就不再作念磨砺题了，而是望望模子编写代码的能力奈何。

这里选拔的题目难度相称高，真东谈主的通过率独一14%。

以下是preview（左）和mini的解题念念路：

从代码上看，两者中枢逻辑同样，但在具体操作上略有区别。

两套代码均通过了测试，内存破费也相比接近，而mini给出的代码运转时代更短（38毫秒）。

o1的编程能力除了用来解题，也不错快速构建出实用的应用圭表。

闻名AI配音器具ElevenLabs筹办部门崇拜东谈主Ammaar Reshi，就哄骗o1搭配Cursor Composer，用了不到10分钟的时代制作了一款iOS天气应用。

少许相比如故不会？

测试发现，对于大模子难以答对的名阵势——少许比大小，preview（左）和mini都答分歧。

以致preview在念念考经由中明明依然提到过9.8比9.11大。

但同期preview在念念考经由中暗示，9.8和9.11有可能指的是日历，是以作念分歧也许另一原因。

针对这个问题，大神谢赛宁也晒出了他的测试恶果，发现o1在念念考经由中将9.8当成了重力常数，而9.11是一个“意旨不解的数字”。

是以o1可能不是不会，而是把这个问题想复杂了。

为了进一步斟酌，咱们把问题改得具体些，强调一下9.8和9.11都是数字，这下莫得了歧义之后就能一次作念对了。

不错看出，请示词的影响如故不小的。

由于o1在里面经受了一些类念念维链经由，因此prompt的筹办和等闲版块也有所区别，OpenAI官方发布了一则请示：

请示词应圣洁且告成

幸免在请示词中使用念念维链

使用分隔符让promot更剖判

约束RAG内容的长度

回到咱们的测试，濒临其他几个大模子溃败名阵势，o1也有不小的超过。

比如在数字母的任务上就有所进化，即使是一串乱打的字母也能数对。

还有濒临经典的“回转追到”（即知谈A是B却不知谈B是A）问题，也终于一次性答对了Mary Lee Pfeiffer（汤姆·克鲁斯的母亲）的犬子是谁。

One More Thing

对于此次发布的o1，除了各个方面的获利除外，还有一些其他的发现。

比如前特斯拉自动驾驶崇拜东谈主、两度插足OpenAI又两度辞职的大神Andrej Karpathy发现，o1-mini在被要求解释黎曼测度的时代出现了阻隔回答的情况，暗示大模子“犯懒”依然是一个大问题。

还有网友说以为mini的进展比preview好，想问下有莫得东谈主知谈原因或者有啥认识。

这条讯息也把奥特曼劝诱了过来，修起了一句“Yes I have one”。

说明OpenAI里面职工Kevin Lu发布的一则推文来看，mini的性价比照实比preview更高。

说明这张图裸露，preview版块论性能比不上尚未公布的满血o1，论经济性又比不上mini。

趁便提一句，preview版块存在讯息数目约束，况兼数目是按周进行重置的，几轮测试下来依然将近用尽了。

参考邻接：

[1]https://x.com/rowancheung/status/1834300353619075494

[2]https://x.com/karpathy/status/1834374965942255835

[3]https://x.com/sama/status/1834381401380294685

[4]https://x.com/_kevinlu/status/1834278160038592633父女乱伦文学

相关资讯

友情链接：

Powered by 国产色片 @2013-2022 RSS地图 HTML地图

Copyright Powered by365站群 © 2013-2024