ag竞咪百家乐 GPT-4o怎样抢了Midjourney的饭碗

2025年3月26日，OpenAI凌晨官宣，GPT-4o的原生多模态图像生到手能厚爱上线。用户不再需要登录OpenAI的文生图模子DALL-E，不错平直在ChatGPT诓骗里调用4o生成、修改图片。

整夜之间，AI生成的吉卜力争像在X等外交媒体上疯传，互联网被一场随和的二次元画风云浪并吞。东说念主们上传自拍照，输入“吉卜力作风”，几秒后，宫崎骏动画中的唯好意思与梦乡便流淌在发丝衣角间，以致连OpenAI创举东说念主奥特曼也晒出我方的吉卜力头像，为这场兴隆添了一把火。

不外，吉卜力的火爆仅仅其一，更关键的是，GPT-4o的绘图本事出圈破损了文生图限度的固有步地，以Midjourney等垂类诓骗为首的赛说念第一次遭到了大模子的挑战。

蓝本，东说念主们用Midjourney生图时，仍濒临着一个致命问题：当场性太强，在指示词过于复杂的时代，细节收复度就会显贵裁汰，而GPT-4o控图本事的跃升，让东说念主类第一次感受到了与AI艺术家在多轮对话中精确改图的魔力。

那么，一个东说念主类印象里只会聊天的通用大模子GPT-4o，是怎样赶超文生图限度专科选手Midjourney的呢？

推行上，雷同Midjourney一样的诓骗早在一年前就能生成吉卜力、赛博一又克、超现实等多种作风的图像，以致在画面缜密感、解析力上略胜于GPT-4o。但GPT-4o的智谋之处在于，它莫得聘任正面硬刚其艺术限度的生图质料，而是在诓骗门槛、修图改图、跨学科本事等细分赛说念弯说念超车。

一是当然话语对话本事的提高大大裁汰了使用门槛。传统文生图限度，用户必须掌持一套复杂的结构化指示指示，比如作风、镜头、色调、角度、配景、主体等，差之豪厘、谬以沉。而GPT-4o不错精确剖释当然话语敕令，只需要像跟好友一样调换，张嘴绘图成为现实。

当然话语等于大口语，日常生存中的理论语。比如，要是你需要一张瀑布图，只需要告诉GPT-4o，“帮我生成一幅早晨众多丛林里的彩虹瀑布”就不错了。但面对Midjourney就需要像下图一般，用高度结构化的prompt指示告诉它：这个图像的主体有什么，配景是什么激情，仰角、俯角照旧平视，作风是油画、古典或者赛博一又克，需要细分到这种进度才可能达到理思后果，但就算分得这样细了，依然会有一些无关焦虑的画面元素跳出来误打误撞。

二是多模态本事带来的图生图、图改图功能的上线。雷同Midjourney一样的诓骗只可发笔墨指示，不复旧上传一张图片再作念修改，或者说不复旧AI生图后，再周折图像的区别率、色调、配景。要是成图后果不睬思，只可回到第一步重写指示词碰运说念，之前生成的图像等同作废。

GPT-4o的强悍就在于用户不错粗率上传一张图片屡次修改，不错是AI生成的，也不错是我方拍的。比如，你不错上传一张全身照，把头型换成大波浪，把衣着换成购物车里的裙子看上死后果。它复旧在现存的图片上去p图去修改，越过于咱们无须学习PS这种具有高壁垒性质的修图本事。

更牛的是它还不错多轮对话，复旧在原图上不限次数地一直改，直到自在为止。你不错一会儿改一个头发，一会儿把配景换成沙漠，或者一会儿周折滤镜作风。只须你思，它便自在。

图源：小红书@Mr.汤先森

除了交互门槛的裁汰和控图本事的提高，GPT-4o的跨学科学问储备也让东说念主惊艳。集成了谣言语模子原有学问库的GPT-4o越过于一个知天文、晓地舆的画家，不仅能解高数、作念物理题，收复修复草图也不在话下。比拟之下，Midjourney行为垂类诓骗经久局限在艺术限度里，为电影宣发、告白等文娱产业办事。

GPT-4o有多牛？给一个题目就不错生成函数图像，越过于一款绘图率领版的拍照搜题诓骗。以致于你给他一个莫得任何色调的铅笔画修复草图，它王人能生成出施工后的房屋实景，澈底逾越了学科的鸿沟，是一个文理双全的万能型选手。

图源：小红书@云安

既然GPT-4o生图改图功能如斯惊艳，咱们就要提问了，在其火爆出圈背后，能够为普通东说念主带来什么推行价值呢？

就在其上线一周内，Midjourney CEO大卫·霍尔兹坐不住了，发文称：GPT-4o仅仅花架子，Midjourney-v7下周上线。

GPT-4o和Midjourney孰优孰劣，当今还难以定论。但能够细则的是，GPT-4o火出圈了，它冲出了想象师这个小众的圈子，走入了大大批东说念主的责任场景里，就算澈底不知说念AI生图是什么，但一定也知说念外交媒体上已而冒出一个能用嘴P图的采集器具。

那么，GPT-4o为什么这样火，给咱们带来的一个最推行的价值点在那处？

率先，它的确作念到了诓骗零门槛，用户以致不需要任何艺术功底和AI基础，毫无基础的普通东说念主也能平直上手。用Midjourney，你必应知说念一些基本的宗派、色调、光学、框架等绘画学问以及/imagine（生成图像）、--ar（图像宽高比）等基础英文指示指示。但用GPT-4o，你也不错不懂透视、框架、后光，也不需要知说念什么是结构化指示词，澈底无须任何专科基础，ag真人百家乐官网就像跟一又友对话一般调换就不错修图。

图源：小红书@Geek4Fun

除了使用门槛裁汰，模子居品的质料和遵循也大幅提高。一是生图更快，已往用Midjourney解析复杂指示需要1min傍边，GPT-4o在20s内就不错收复。

第二，生图和改图的终了性提高了，GPT-4o能够澈底收复你给它的指示。比如不异的一个指示“给我生成一个猫猫和狗狗在草地里玩耍的场景”，GPT-4o生成的等于一只猫和一只狗在草地上玩，莫得任何其他会已而冒出的元素，但Midjourney可能在草坪上多一个公园或修复，不会澈底按指示来。平时地讲，等于GPT-4o更能听你的东说念主话了，它就像你的电子仆东说念主一样，你让他干嘛，他就干嘛，过剩的事一件不作念，该作念的事也毫不少干，精确度更强了。

由此，GPT-4o通达全民赛说念，投入到咱们责任场景里。之前，普通用户用Midjourney更多照旧出于深嗜，文娱属性强、器具属性弱。生成的油画、动漫等多样作风的图像虽颜面，但既不成提高责任效率，也不成收成，主要起到了一个造型上的作用。

而GPT-4o的用嘴P图让AI绘图能够落地的行业加多，从文娱化与艺术性走向了专科化与分娩力，不错诓骗到电商、培植、修复、想象等九行八业。比如你的小孩不会作念题，已往需要请问课赤诚或者下载功课帮，指示用度贵而功课帮的教师唯有干巴巴的一段笔墨，令东说念主隐晦。可是GPT-4o澈底不错生成一张教师草稿图，函数怎样生成的，谜底怎样得来的，推导过程通顺当然。

再比如电商行业的宣传海报，甲方需要你生成一个针对西洋市集的英语海报，其中想象元素和话语王人需要作念土产货化润色。之前的进程是对接想象师修改元素、去翻译软件润色，再导入PS软件修改，费时用功。但当今GPT-4o只需要一句话，“把这张海报改成西洋风，话语酿成英语”，它就很快就能想象一张稳健条件的海报，跨限度跨学科的集成本事相配强悍。

聊完GPT-4o的绘图出圈，不如再聊聊，GPT-4o行为一种底层模子还有什么可挖掘的所在。

咱们王人知说念，Midjourney是一个架构在模子上的诓骗，但GPT-4o本人等于一个模子，生图是它的本事之一。2022年刚出说念的ChatGPT仅仅一个能够笔墨调换的对话助手，其后不错语音打电话，当今又能绘图，一直不停在不同维度上迭代升级。

而这次GPT-4o能绘图赛说念凸起重围，真要感谢其原生多模态模子本事的大幅透露。跟Midjourney不一样，GPT-4o有更多本事旅途可走。当今文生图限度诓骗遍及用的底层模子叫扩散模子diffusion model，旨趣是先生成一个省略的图像，再甩掉噪点，就像雪中作画、醉中逐月，收复本事不彊。而GPT-4o沿用文生图自追忆模子，越过于把之前瞻望token的逻辑推理本事进一步延长到了文生图限度，通过逐帧绘制的相貌，从已生成的像素臆测下一个像素，本色是师法东说念主类画画。这意味着，与垂类诓骗不同，大模子不错从底层架构上聘任不同的本事旅途，而架构的升级时时会带来性能的跃升，基于GPT-4o等原生模子的功能有更多的生漫空间。

第二个是，多模态和会会带来跨限度的和会剖释，GPT-4o行为一种通用大模子，领有整合笔墨、音频、图像等不同要害信息的本事，现阶段还是不错打电话、生图改图了。而在将来，是不是不错平直生成音乐和视频，也值得期待。推行上，GPT-4o本次上线的生图功能就脱胎于OpenAI的文生图模子DALL-E。随机，OpenAI旗下的文生视频模子Sora也可能通过某种本事被整合到GPT模子里。届时，在一个模子里交叉处理多种模态的信息将不再远方。

而多模态编削也进一步表现，模子走向多功能后，处理多样任务的本事越来越强，带来的总AI使用资本裁汰。一个不错料思的趋势是，大模子正在试图成为一个一站式打包站点，将代码、想象、音乐、数据处理等多种任务集成在所有这个词。可能在将来某一天，雷同于ChatGPT一样的模子强悍到在职何限度王人能作念到前三，咱们也不再需要下载绘图的Midjourney、写代码的coze、作念音乐的suno等垂类诓骗，平直下载雷同于ChatGPT一样的模子，就能不时通盘的事情。这样一来，手机的内存更大了，运转效率也快了。每个月还不错省下了垂类诓骗一百块傍边的会员定制费，性价比更高了。

简言之，GPT-4o绘图本事的出圈让咱们看到了底层大模子集成多诓骗的本事。而从这个本事生息出的愿景是，咱们将来不错在一个一站式的模子内部同期使用绘画、音乐、代码等多维本事。况兼，它的使用门槛口舌常低的，低到任何一个毫无本事基础，以致连AI王人不了解的东说念主王人能用。

而这随机才是东说念主类发明AI的终极规划——让本事普惠到每一个边际。