GPT-4o图像生成架构被“破解”了?

2025-04-09 04:25:31 · chineseheadlinenews.com · 来源: 量子位

GPT-4o图像生成架构被“破解”了!

最近一阵,“万物皆可吉卜力”让GPT-4o的图像生成功能一炮而红,人们随之好奇:

4o图像生成的架构底层逻辑到底是什么?GPT-4o究竟强在哪?存在哪些短板?

作为解答,北京大学、中山大学等多家科研机构共同推出GPT-ImgEval,首次系统评估了GPT-4o在图像生成上的真实表现。

这份量化评估基准不仅囊括了生成质量、编辑能力和知识推理,还尝试揭示GPT-4o背后的可能架构,还探讨了它生成图像的可检测性问题。

下面具体来看。

GPT-4o架构揭秘:可能使用了扩散+自回归混合方案

GPT-ImgEval团队尝试“反向破解”GPT-4o的图像生成架构。

研究团队在论文中提出了4种候选架构方案(见下图),尽管细节略有不同,但有一点是一致的:

GPT-4o很可能采用的是自回归主干+扩散头的混合结构。

通俗来说,它的工作流程可能是这样的:文本或指令→ 自回归模块理解语义 → 生成中间视觉Token → 扩散模型将这些Token解码成图像。

当然,架构猜测不能仅靠想象。为此,研究团队设计了一套严谨的实证方法:

先选取一组统一的文本提示(prompt),分别使用自回归模型(VAR)和扩散模型(Diffusion)各自生成1万张图像作为对比样本;

利用这些图像训练一个二分类器,让它学会识别图像是“AR风格”还是“Diffusion风格”;

然后,用同样的Prompt交给GPT-4o生成图像,将这些图像输入该分类器进行识别。

也就是说,整个过程中,提示词保持完全一致,只看不同模型生成的图像“长得像谁”,以此判断GPT-4o的生成方式更接近哪类结构。

结果很直接:GPT-4o生成的图像几乎全部被识别为“扩散风格”,这就从图像风格维度验证了GPT-4o的确可能用了扩散模型作为解码器。

除了对视觉解码器的分析,研究人员也深入探讨了视觉编码方式。他们指出,一些研究(如UniTok)认为基于向量量化(VQ)的编码器可能会削弱模型的语义理解能力。

因此,作者认为如果采用了pixel encoder,其大概率是连续(非VQ)的而不是离散(VQ)的,并基于此提出了四种可能的完整架构示意图。

三大维度全面评估GPT-4o图像能力

GPT-ImgEval聚焦三类核心任务,对GPT-4o进行了系统评估:

文本生成图像(GenEval):通过对物体数量、颜色、位置、组合属性等细粒度维度进行测评,验证模型对文本的理解与图像的构造能力。

指令编辑图像(Reason-Edit):模拟用户给出修改指令后,模型在保留图像语义基础上进行局部编辑的能力,如替换、删除、变色等。

基于世界知识的语义合成(WISE):考察模型是否能将对世界常识、文化背景、科学原理等知识真正“显性化”为图像输出。

为了支持这一系统评估,研究团队开发了一套针对GPT-4o的自动化交互脚本,解决了当前该模型尚未开放图像生成API的现实问题。

这套脚本直接与GPT-4o网页界面交互,模拟真实用户行为:

自动输入提示词(Prompt)、点击提交

自动抓取生成图像并存储归档

每次请求会新开浏览器窗口,确保不同任务之间上下文不相互干扰

支持任务批量运行,可实现大规模、可重复的图像生成任务调度

最终,GPT-ImgEval的整体工作流如下图所示:

在文本生成图像(GenEval)任务中,GPT-4o取得了0.84的总得分,超越目前所有扩散类与自回归类图像生成模型。

尤其在以下几项中表现突出:数量控制(0.85)、颜色绑定(0.92)、空间位置(0.75)、属性组合(0.61)。

下图是一些GPT-4o使用GenEval基准中的prompt生图的具体例子:

而在图像编辑任务(Reason-Edit)中,GPT-4o得分高达0.929,领先第二名超过0.35,说明其在指令理解和局部控制上表现极其稳定。

在知识合成(WISE)任务中,GPT-4o同样大放异彩,多个子维度(生物、文化、物理等)得分均超过0.9,总分0.89,远高于当前开源模型(普遍在0.4~0.5之间)。

这说明GPT-4o具有强大的世界知识和推理能力,这应该是得益于GPT-4o这种统一多模态框架。

更多研究结论

GPT-4o vs Gemini 2.0 Flash:多轮编辑对比

研究团队还对GPT-4o与Google的Gemini 2.0 Flash进行了多轮图像编辑对比。

除了性能与架构机制,GPT-4o在实际的使用体验中也展现出了强劲的竞争力。研究团队对其与Google最新发布的 Gemini 2.0 Flash 进行了多轮编辑任务的实测对比。

GPT-4o支持完整的多轮对话式编辑流程,上下文一致性强

Gemini响应速度更快,但每轮需重新上传图像,缺乏连续性

在连续修改、复杂指令理解、图像语义保持方面,GPT-4o表现出更高的稳定性

从整体趋势来看,两者在编辑轮数增加后均出现一致性下降,但GPT-4o下降更缓,保持更稳。

GPT-4o与Gemini 2.0 Flash多轮编辑一致性对比如下图所示:

这一对比结果也进一步验证了:融合大模型语义理解能力的图像生成系统,在交互式创作任务中,正在展现出压倒性优势。

GPT-4o仍存五大问题,图像量化评估并非无解

研究团队总结出GPT-4o当前的五个常见生成难点:

无法严格保持原图尺寸与边框比例,有时会自动裁切或缩放

强制锐化,即使用户要求生成模糊图,也会被模型“优化”成高清

编辑偏暖、全图色调变化,即使只修改小部分,可能全图色调甚至是全局都会被一定程度修改

复杂场景失真,多人或人-物体交互场景易出现姿态不自然或结构错乱

非英文文本支持较弱,如中文标识常出错,难以在复杂背景准确生成

这些问题不仅影响使用体验,也提示我们——GPT-4o仍在追求“自然感”与“精确控制”之间寻找平衡。

这些图像能被检测出来吗?

除了感知层面的观察和评估,研究团队进一步思考一个关键问题:GPT-4o生成的图像,是否真的可以“以假乱真”?

为此,研究者使用多个主流图像取证模型,对GPT-4o生成的图像进行了系统性评估。

结果显示,包括Effort、FakeVLM在内的多种检测器,对GPT-4o图像的识别准确率普遍超过95%,最高接近99.6%。

不仅仅停留在数值层面,研究团队还对量化评估成功的原因进行了机制层面的归因分析:

GPT-4o可能在图像生成过程中引入了超分辨率模块,通过上采样插值导致明显伪影

模型有过度锐化与细节增强倾向,视觉效果虽然“精致”,却留下了被取证模型捕捉的痕迹

在用户未要求修改时,仍可能出现尺寸、色彩的隐性变化,破坏了图像一致性

GPT-4o生成图像色调普遍偏暖,整体风格趋同,易被量化评估模型建立“风格识别模式”

可量化评估,并非弱点,而是AIGC安全设计的基线能力

研究团队认为,是否可量化评估,不应成为衡量生成模型能力强弱的标准,而应被视为评估其可控性与安全性的重要指标。

在未来的AIGC系统设计中,“逼真”固然重要,但“可识别”、“可追踪”同样不可或缺。GPT-4o生成图像中的伪影、色彩偏好等特征,也正是推动生成量化评估研究的重要突破口。

这也正是GPT-ImgEval的差异化亮点之一:不仅做量化评估,更从安全机制的角度进行深入诊断和前瞻探索。

GPT-4o很强,但“终局”远未到来

GPT-ImgEval不仅验证了GPT-4o在图像生成上的优势,更指出了它仍需突破的短板。尤其是在可控性、多语种处理、局部编辑稳定性等方面,仍有不少提升空间。

GPT-ImgEval不仅系统性验证了GPT-4o在图像生成、图像编辑与知识合成三大任务中的领先表现,更进一步揭示了其架构特征、失败模式与安全边界。

该研究不仅在评测维度上实现了覆盖广泛、量化精准,也从架构判别、编辑可控性、多轮理解能力和伪影检测等多个层面,对GPT-4o进行了技术全景式诊断。

研究团队认为,该工作的重要意义在于:

1、提供系统化多模态评估范式:首次从“生成-编辑-推理”全流程出发,建立综合图像能力测试框架;

2、推动闭源模型的“可解释评测”研究:在无法访问模型细节的前提下,建立架构猜测和行为归因机制;

3、强调通用多轮编辑场景的实用价值:用用户视角验证语义理解一致性与细节保真性,为交互设计落地提供参考;

4、补齐图像生成安全性研究缺口:通过可检测性实证,发现图像中的上采样/超分伪影、色彩特征,推动AIGC取证技术演进。


    24小时新闻排行榜更多>>
  1. 纽约时报:“川普同志”建设伟大中国
  2. 满世界找不到稀土的川普,有点急眼了
  3. 川普吹牛"每天坐收20亿美元关"!美海关打脸曝真实数字
  4. 三亚老妇开车撞伤多人 目击网民:有人死亡
  5. 封杀马斯克听取对中作战计划,川普:他X的在那里干嘛
  6. “3岁男童被生父女友虐待致死案”将开庭
  7. 科学家震撼发现:K2-18b行星含生命迹象
  8. 首轮交锋,中国取得了阶段性胜利
  9. 川普政府警告 哈佛大学恐失外籍生招生权
  10. 美对华关税重击下 中国航运爆“空班潮”
  11. 美对中国关税增至245%?白宫澄清
  12. 桑坦德成欧洲最大银行
  13. 弗里克收藏馆4月17日盛大回归
  14. 哈佛硬刚川普遭立即断供:渐冻症等研究叫停
  15. 美稀土公司MP Materials宣布停止对华出口
  16. 中国面临“几十年未有之经济形势”
  17. 新“带头大哥”浮出水面
  18. 自闭症盛行率超3%,亚裔童最严重
  19. 付顺义被免,一点都不冤
  20. 1男2女办惊世婚礼 喜帖曝3人婚纱照!酒店急喊停
  21. 传深圳高中已婚教师与多名女生发生关係 校方:已开除
  22. 中情局局长:中共是美国史上最大的威胁
  23. 美国出生医生突收"自我驱逐令" 随身携护照防遭遣返
  24. 新西兰国会访团拜会赖清德:深化台纽合作关系
  25. 面对台湾芯片制造商,中美策略截然不同
  26. 《时代》全球百大影响力人物榜 川马领衔6高官上榜
  27. 大马华媒讨好北京“翻车” 道歉也挡不住怒火
  28. 中美脱钩 广交会凉了!欧美客户不来了!中国民众讨论“怎么吃树皮”
  29. 川普拟通过贸易谈判拉拢数十国 逼中方上谈判桌
  30. 为将300亿和解金降为4.5亿,他捐给川普100万
  31. 川普想重启贸易谈判?传要满足“3条件”北京才接受
  32. 美加速处理庇护案 有法律缺涎剔需听证可驳回
  33. 一人扛公司六成营收 王一博遭自家节目除名
  34. 美专家:五迹象显示美中可能正迈向热战
  35. 美国蔬果价格大涨:个别暴冲75%
  36. 川普吹嘘关税收入被戳破 人手不足正压垮美国海关
  37. 标普500指数出现了“死亡交叉”,这意味着什么?
  38. 司法部请求撤销帮移民返美裁决 上诉法院驳回
  39. 奈飞一季度利润创历史新高
  40. 川普狂喷美联储主席:解职越快越好
  41. 【中国禁闻】广交会美国订单消失 市场冻结
  42. 战争边缘的中美关系:五大黄灯警示冲突升级风险
  43. 英法院裁定跨性别者"不是女性",J.K.罗琳抽雪茄举杯
  44. 路透:SpaceX领跑“金色穹顶”导弹防御系统竞标
  45. 针对哈佛违反民权法行为 美众议院启动调查
  46. 【直播】川普签署行政令并答记者问(4/17)
  47. 泽连斯基:中共供俄罗斯火炮 乌克兰有证据
  48. 三上央视,钟睒睒凭什么?
  49. 五角大楼调查泄密事件 第三名高官被停职
  50. 419上街“反共护台湾” 罢团:大罢免是善良对邪恶的对决
  51. 中共在俄参与武器生产?泽伦斯基首次公开指控军援俄
  52. 习近平亲信又出事了 公安副部长许甘露被免职
  53. 美检方正式提告"枪杀健保CEO"学霸,罪成恐被处死
  54. 高人揭晓江泽民诡异往事“干校”履历被瞒
  55. 中共给失业毕业生发低保 分析:贸易战下维稳
  56. 美国扩大审核外国留学生 已逾千人被注销签证
  57. 三亚货车闹市冲撞多人倒地不起 官报6伤遭疑
  58. 特里芬难题──美元霸权与贸易逆差并存
  59. 民调:大部分美国人不信任AI生成的资讯
  60. 习近平访马来西亚 身后拿大黑包女孩是谁掀热议