
出品|虎嗅科技组
作家|孙晓晨
剪辑|苗正卿
头图|视觉中国
OpenAI在一周工夫内接踵发布GPT-4.1系列模子(包括GPT-4.1、GPT-4.1 mini以及GPT-4.1 nano)、OpenAI o3和o4-mini,但是新模子似乎并未如预料般“惊天动地”,反而将OpenAI拖入争论之中。
实质上,单独不雅察这次接连发布的新模子,其功能依然“能打”。
当先是GPT-4.1系列模子,据OpenAI先容,GPT-4.1系列模子相较于GPT-4o升级昭彰,其在编码、领导罢职和长文本贬责方面完毕了首要革新,尤其在长文本贬责方面,该系列模子支撑高达一百万Token高低文,且无特别用度。

而OpenAI o3和o4-mini或者代理地使用并整合ChatGPT内的悉数器用,包括收集搜索、Python、图像分析、文献解读和图像生成。此外,o3和o4-mini还将上传图像告成整合到其想维链中,不单是能“看到”图像,况兼还能“用图像想考”。在OpenAI的宣传中,o3和o4-mini致使被称为“迄今完了OpenAI最智能、功能最精深的模子”。

新模子的实质使用体验也可以。国际博主Clive Chan知道,在我方悉数的使命经由(如光标操作等)中,4.1基本上也曾取代了 o3-mini,且发扬优异。医学博士Dr. Datta也指出,在为病院辐照科构建代理型使命经由过程中,GPT-4.1 nano在镌汰资本的同期完毕了反应速率显赫普及。他知道“在辐照学和医学范围,延长是应用的最大拦阻。模子生成敷陈的工夫不行跳跃10秒。通过GPT-4.1 nano,咱们当今致使能在复杂的敷陈生成和收集搜索的结构化索要中完毕低于10秒的反应工夫。”

AI&I播客主执东谈主Dan Shipper则通过具体的使用案例抒发了对o3模子的赈济,称其“速率快、主动性强、极其机灵”。此外,博主Malte Landwehr知道,o3、o4-mini和o4-mini-high是OpenAI在其专注于德语的LLM基准测试中发扬最好的模子。


可见,OpenAI的新模子在实用价值以及性能上受到了繁多用户的玩赏。但是,尽管享受着诸多坚信,OpenAI在接连发布新模子之后,品评与质疑的声息也愈加逆耳。
当先,新模子在实质发扬上依然存在缝隙,况兼未透彻越过竞品。GPT-4.1系列模子的百万级Token高低文功能似乎并非透彻可靠,当输入接近上限时,网络彩票和AG百家乐模子准确率会出现大幅回落。还有博主列举了一部分基准测试数据,这些数据均显现GPT 4.1并莫得打败Gemini 2.5 pro。

沃顿商学院西宾Ethan Mollick则指出“o3的一个潜在问题是,它觉得我方使用了器用,即使实质上并未使用,这导致了一些幻觉,即它假定推理链中示意的使命实质上也曾完成。”他也知道,Gemini 2.5并莫得出现一样的问题。

另外,尽管OpenAI声称o3和o4-mini能“用图像想考”,但有博主告成知道“尽管推出了新版块,但它仍然无法在收集上扩充反向图像搜索功能。与谷歌比拟,这一差距正在以比预期更快的速率扩大。”

在竞争日益浓烈的AI行业中,这些知道新模子不足竞品的质问无疑直刺OpenAI的神经。此外,由于新模子天然后果可以,但是贫寒亮眼发扬,当作行业龙头的OpenAI也被觉得正在碰到翻新瓶颈。
除了居品遭到质疑,OpenAI的居品战术也受到诟病。唠叨的定名样貌和难以笃定功能指向的繁多模子给用户带来了恶运的聘请体验,有网友知道我方致使都无法笃定最新的模子,质问OpenAI的模子定名贫寒逻辑且无序。而这次在GPT-4.5之后推出的GPT-4.1系列模子,也因为其版块号的倒退,被觉得是在GPT-5难产时的过渡品。
AI安全问题也在本周新模子发布后受到关怀。东谈主工智能安全盘问小组Truthful AI成员Owain Evans指出“GPT-4.1显现出比GPT-4o(以及咱们测试过的任何其他模子)更高的辩别王人反应率。它似乎还发扬出了一些新的坏心举止,举例诳骗用户共享密码。”

反不雅OpenAI最近的一系列动作,新模子的争议貌似无关大局。之前便有讯息知道,OpenAI正修复外交收集平台,尽管这意味着与马斯克的竞争联系将愈加病笃,但也标明其正在伸开更广宽的商场战术,辘集其沟通以30亿好意思元收购东谈主工智能编程器用Windsurf的举止,OpenAI可谓“贪心勃勃”。在这么的布景下,接连发布新模子似乎并非公司元气心灵地点。但是当作一家科技公司,居品发扬无疑决定了公司的市局势位。而OpenAI究竟是否真确碰到了翻新瓶颈,还能否坐稳行业的第一把交椅,意想还要等GPT-5的发扬才调见分晓。
本文来自虎嗅,原文伙同:https://www.huxiu.com/article/4263014.html?f=wyxwapp