字节开源新生图模型:一个模型统一所有

2025-04-10 06:25:32 · chineseheadlinenews.com · 来源: 量子位

利用字节团队魔改的FLUX模型,可以直接把多个参考主体放进一张图了。

字节团队以FLUX为基础模型,提出了新的生图模型UNO,统一了图像生成任务中不同输入条件的处理。

无论是单主体进行风格变换,还是不同物体的融合,UNO都能直接搞定。

字节团队认为,UNO主要解决的是参考驱动的图像生成中的两个主要挑战——数据可扩展性和主体可扩展性。

传统方法在从单主体数据集扩展到多主体数据集时面临困难,且大多数方法仅关注单主体生成,难以应用于多主体场景。

为了解决这一问题,团队提出了“模型-数据共同进化”的新范式,能够在增强模型能力的同时,不断丰富可用的训练数据。

多主体参考生图测试中,UNO的DINO和CLIP得分均达到了SOTA水平。

网友评价说,UNO看上去是一个巨大的飞跃,如果真的能搞定多主体参考,将会大幅激发定制化AI智能体的潜力。

另外,团队还在HuggingFace上提供了在线试玩,但前提是拥有HF的GPU额度。

一个模型搞定单/多主体参考

如开头所述,UNO将单纯的文生图,以及单/多主体参考这些不同的任务都整合到了一个模型当中。

具体来说,除了直接的文生图之外,它可以把多张参考图当中的物体进行组合。

当然三个物体也照样能很好地组合,官方提供的在线Demo当中最多可以上传四张参考图。

也可以对参考主体中的人物特征进行保持,生成不同场景的人物图像。

同时对于人物而言,也可以在保留基本特征的条件下进行风格转换,包括被GPT-4o带火的吉卜力风也能拿捏。

应用场景方面,官方给出了虚拟试穿和产品设计这两组示例。

对于UNO的单主体生成能力,团队使用了DreamBench进行了测试,使用了三个主要指标——

DINO分数、CLIP-I分数(这两个用于评估主体相似度)和CLIP-T分数(用于评估文本忠实度)。

多主体生成测试则采用了一个特别设计的测试集——从DreamBench中选取了30种不同的双主体组合,包括非生物体和生物体的组合。

最终,UNO的测试成绩无论在单主体还是多主体任务中都处于领先水平。

研究团队还进行了用户研究,邀请了30位评估者(包括领域专家和非专家)对300个图像组合进行评估。

结果,UNO在所有评估维度上都获得了较高评分,特别是在主体相似度和文本忠实度方面的表现最为突出。

此外,团队还展示了UNO和一些SOTA级模型的效果对比,可以直观感受一下区别。

模型-数据共同进化

UNO采用了这一种“模型-数据共同进化”的新范式,核心思想是用较弱的模型生成训练数据,训练更强的模型。

在模型架构方面,UNO以开源模型FLUX.1 dev为基础,继承了其文生图基础能力和多模态注意力机制,采用了通用定制化模型框架。

具体来说,该框架采用渐进式跨模态对齐策略,将训练过程分为两个连续阶段——

首先使用单主体数据对预训练的文生图(T2I)模型进行微调,使其获得基本的主体到图像转换(S2I)能力;

随后引入多主体数据继续训练,增强模型处理复杂场景的能力。

此外研究团队提出了通用旋转位置嵌入(UnoPE)技术,通过为文本和图像标记分配特定的位置索引,来调控多模态标记之间的交互。

UnoPE采用从噪声图像标记最大维度开始的对角线位置编码方式,并通过调整位置索引范围来防止生成图像过度依赖参考图像的空间结构,有效缓解了在扩展视觉主体控制时容易出现的属性混淆问题。

数据方面,团队利用Diffusion Transformer固有的上下文生成能力构建了数据合成框架。

团队首先构建了一个包含365个顶层类别的分类树,这些类别来自Object365数据集。

在每个类别下,还包含了更细粒度的分类,涵盖年龄、职业和着装风格等维度。

然后利用大模型在每个类别中生成丰富多样的主体和场景描述,这些输出与预定义的文本模板结合,可以为文生图模型生成数百万个文本提示。

最终,研究团队设计了一个渐进式的合成管道,从单主体生成开始,逐步过渡到多主体上下文生成。

来自字节智能创作团队

论文显示,UNO的作者字节智能创作团队。

据介绍,该团队是字节的AI&多媒体技术中台,研究方向包括计算机视觉、音视频编辑、特效处理等技术。

之前字节提出的用于提升图像生成模型“美感”的VMix,也是来自智能创作团队,并且作者与这次的UNO基本相同。

本次UNO的项目负责人是Fei Ding,是Vmix的通讯作者,之前还参与过Realcustom++、Dreamtuner等项目的工作。

UNO的第一作者Shaojin Wu、通讯作者黄梦琪,之前也都参与过Vmix。

黄梦琪目前是中科大博士在读,2023年起至今一直在字节实习,预计今年毕业,导师是毛震东教授。

另外,字节招聘网站显示,智能创作团队目前正在招聘AIGC技术专家、多模态算法专家等岗位。


    24小时新闻排行榜更多>>
  1. 美欧为俄乌停火举行巴黎会谈
  2. 419上街“反共护台湾” 罢团:大罢免是善良对邪恶的对决
  3. 美稀土公司MP Materials宣布停止对华出口
  4. 美专家:五迹象显示美中可能正迈向热战
  5. 针对中国,川普团队又曝新狂想
  6. 黄仁勋到访中国,一个重要节点
  7. 中国面临“几十年未有之经济形势”
  8. 中情局局长:中共是美国史上最大的威胁
  9. 中美脱钩 广交会凉了!欧美客户不来了!中国民众讨论“怎么吃树皮”
  10. 美国出生医生突收"自我驱逐令" 随身携护照防遭遣返
  11. 新“带头大哥”浮出水面
  12. 川普宣布对中国船舶收费 重振美国造船业
  13. 川普抨击鲍威尔要求降息 暗示可能将其解职
  14. 山西订婚强奸案:他们都想有个“铁链女”
  15. 一人扛公司六成营收 王一博遭自家节目除名
  16. 标普500指数出现了“死亡交叉”,这意味着什么?
  17. 1男2女办惊世婚礼 喜帖曝3人婚纱照!酒店急喊停
  18. 传深圳高中已婚教师与多名女生发生关係 校方:已开除
  19. 全美160所大学逾千国际学生被吊销签证
  20. 新西兰国会访团拜会赖清德:深化台纽合作关系
  21. 针对哈佛违反民权法行为 美众议院启动调查
  22. 泽连斯基:中共供俄罗斯火炮 乌克兰有证据
  23. 他用这项研究颠覆传统认知
  24. 中共军工系清洗持续 航天科工总经理换人
  25. 加大圣地亚哥分校35国际学生签证被吊销
  26. 高人揭晓江泽民诡异往事“干校”履历被瞒
  27. 为将300亿和解金降为4.5亿,他捐给川普100万
  28. 美国蔬果价格大涨:个别暴冲75%
  29. 川普吹嘘关税收入被戳破 人手不足正压垮美国海关
  30. 路透:SpaceX领跑“金色穹顶”导弹防御系统竞标
  31. 习近平访马来西亚 身后拿大黑包女孩是谁掀热议
  32. 《时代》全球百大影响力人物榜 川马领衔6高官上榜
  33. 美加速处理庇护案 有法律缺涎剔需听证可驳回
  34. 奈飞一季度利润创历史新高
  35. 川普拟通过贸易谈判拉拢数十国 逼中方上谈判桌
  36. 川普狂喷美联储主席:解职越快越好
  37. 湖南机场集团董事长被曝饭局后性侵同桌女子
  38. 【直播】川普签署行政令并答记者问(4/17)
  39. 川普想重启贸易谈判?传要满足“3条件”北京才接受
  40. 高盛:极端情况下美恐抛售8千亿美元中概股
  41. 战争边缘的中美关系:五大黄灯警示冲突升级风险
  42. 英法院裁定跨性别者"不是女性",J.K.罗琳抽雪茄举杯
  43. 中共给失业毕业生发低保 分析:贸易战下维稳
  44. 川普曝美日谈判“有重大进展” 日经指数收涨逾450点
  45. 全球监控与人工智能崛起 精神战争正在发生
  46. 中共在俄参与武器生产?泽伦斯基首次公开指控军援俄
  47. 司法部请求撤销帮移民返美裁决 上诉法院驳回
  48. 美检方正式提告"枪杀健保CEO"学霸,罪成恐被处死
  49. 弘一法师:所有遗憾 都是为了让你遇见自己
  50. 特里芬难题──美元霸权与贸易逆差并存
  51. 美国扩大审核外国留学生 已逾千人被注销签证
  52. 美官员:中国卫星正帮助胡塞武装攻击美国军舰
  53. 台内政部:19人持中国身份证遭废止台湾户籍
  54. 联邦小企业局国际B2B与资源论坛 4月25日报名截止
  55. 民调:大部分美国人不信任AI生成的资讯
  56. 贵州一人家出门没拔充电器 家被烧光
  57. 【纪元焦点】太平洋岛国大搞基建 中共阴谋暴露
  58. 南昌一业主119万房子4年后仅值40万
  59. 宋慧乔惨遭网暴,翻车了?
  60. 中共国家广电总局前副局长杨小伟落马