宋亦仁,NUS Show Lab 博士生,研讨偏向是天生式 AI,及天生式 AI 的保险性。曾在网易游戏互娱 AI lab 练习,研发效劳游戏美术场景的图像天生模子;前小红书智能创作组算法工程师,在 AIGC 与创意计划联合范畴有丰盛教训。刘成,NUS 重庆研讨院四年级本科生, 研讨偏向是天生式 AI,担任 MakeAnything 数据集构建跟模子调优。人类聪明的一年夜特点是可能分步调发明庞杂作品,比方绘画、手工艺跟烹调等,这些进程表现了逻辑与美学的融会。但是,让 AI 学会天生如许的 “步调教程” 面对三年夜挑衅:多义务数据稀缺、步调间逻辑连接性缺乏,以及跨范畴泛化才能无限。来改过加坡国破年夜学的最新研讨 MakeAnything,经由过程 Diffusion Transformer(DiT)与非对称 LoRA 技巧的联合,初次实现了高品质、跨范畴的顺序化序列天生,在 21 类义务中获得优良表示,同时展示出在新义务上杰出的泛化才能。本文将深刻剖析这一技巧的计划计划与试验成果。一、从「天生成果」到「天生进程」分散模子善于单张图像分解,经由过程计划提醒词跟 In-Context LoRA 练习,进步的 DiT 模子能够天生多个子图的拼图,存在分歧性的表面。但天生多步调序列时,每每面对以下成绩:1. 逻辑断层:步调间缺少因果关系,如绘画中 “先画表面后上色” 的知识易被疏忽;2. 表面漂移:前后帧的天生成果可能表面纷歧致;3. 数据瓶颈:现有的步调数据集范围小、范畴单一,难以支撑庞杂义务练习。MakeAnything 的处理思绪直击中心:构建最年夜范围多范畴数据集:涵盖各种绘画、手工艺、乐高组装、Zbrush 建模、变形金刚变形、烹调等 21 类义务,包括超越 24,000 条标注序列,初次实现从 “单毕生成” 到 “步调逻辑” 的数据支持;激活 DiT 的高低文才能:经由过程低秩微调激活 Flux 的高低文才能, 确保天生成果逻辑连接性跟表面分歧性;非对称 LoRA 计划:均衡通用常识与范畴特征,明显晋升跨义务泛化才能。二、技巧详解:怎样让 AI 学会「分步创作」?1. 蛇形拼图,应用分散 Transformer(DiT)的空间留神力机制之前的进程天生方式(如 ProcessPainter, PaintsUndo)应用 U-Net 架构跟 Animatediff 时序模块,对前后帧表面变更年夜、存在庞杂逻辑性的进程天生表示欠安。而 MakeAnything 采取分散 Transformer(DiT)作为基本模子,经由过程拼图将全部帧排版在一张图上,应用空间留神力机制捕获步调间依附关联。详细来说,MakeAnything 提出蛇形序列规划,将多步调帧陈列为蛇形陈列的网格,确保时光相邻的步调在空间上也相邻(见下图),强化模子对步调次序的感知。2. 非对称 LoRA:统筹通用常识与特定义务在差别义务序列上混训 LoRA 模子会招致义务抵触,而分义务独自练习则面对过拟合成绩 。一些义务 (如特定画师的肖像作品)只有 50 个数据序列,且种别单一,微调模子后仅能天生肖像。受年夜言语模子范畴 HydraLoRA 启示,咱们将非对称 LoRA 引入图像天生,为了统筹通用常识进修跟特定义务后果。在 LoRA 中,A 矩阵跟 B 矩阵是要害构成局部,用于调换传统线性变更中的权重矩阵。A 矩阵平日是一个小尺寸的矩阵,用于将高维空间下采样到低维空间。B 矩阵担任将低维空间从新投影回原始高维空间。非对称 LoRA 练习时,在全部练习数据集上,微调共享矩阵 A,从年夜范围预练习中提取通用常识跟分步调逻辑;对差别义务微调独自矩阵 B 以适配详细义务特征,如油画笔触、乐高拼接规矩。推理时按权重融会差别的 B 矩阵,在坚持泛化才能的同时,精准适配差别范畴需要。下图展现了水墨画、素描、油画、景致插画进程的天生成果,前后视觉分歧性好,进程非常公道。下图展现了天生粘土玩具、陶艺、毛线玩具、石雕的成果,天生手工艺品的创立进程也不在话下。下图展现了更具体的 9 帧步调,分辨是沙画跟变形金刚的变形进程。3. ReCraft 模子:从「制品图」反推创作进程除了天生进程教程,本文还开辟了 “ReCraft 模子”,为进程天生引入图像前提。ReCraft 模子应用了变分自编码器(VAE)来编码目的图像中的特点,这些 tokens 随后与去噪 token 衔接,用于领导 DIT 的去噪进程,以确保天生的旁边帧在视觉上与目的图像坚持分歧。咱们将 Text2Sequence LoRA 与基本模子融会,作为 ReCraft 模子练习的基本模子。经由过程复用预练习的 Flux 模子构造,对单一义务,仅需在 50 + 序列上微调 LoRA 即可实现图像前提天生。ReCraft 模子特殊合适须要从已有作品中逆向工程或许从简略图像中发明具体教程的利用场景。如下图所示,猜测绘画、雕琢等手工艺步调,乐高模子拼搭进程。4. 新义务泛化MakeAnything 还能在没见过的义务上有必定泛化机能。下图展现了将 MakeAnything 的进程 LoRA 跟 Civitai, LibLib 社区的作风化 LoRA 联合应用的成果。只管 MakeAnything 练习是没见过冰雕、浮雕、衍纸画跟水彩画,仍能获得相称不错的泛化成果。咱们以为差别义务之间是相通的,比方各种雕琢跟差别绘画题材。三、试验成果 评价1. 评价指标一个好的教程须要是连接的、合逻辑的而且有效的。MakeAnything 采取 CLIP Score 来评价天生成果的文本 - 图像对齐,用 GPT4-o 跟人类评价来评估天生成果的连接性跟有效性。经由过程经心计划了 GPT4-o 的输入提醒跟评分规矩,以合乎人类的偏好。在对照试验中,咱们将差别基准的成果与咱们的成果停止拼接,一次性输入 GPT4-o,并让其抉择在差别评估维度上最好的成果。2. 对照实验在 Text2Sequence 义务中, MakeAnything 跟开始进的 baseline 方式对照,分辨是 ProcessPainter,Flux 1.0, 贸易 API Ideogram。在 Image2Sequence 义务中,MakeAnything 对照了 Inverse Painting 跟 PaintsUndo 两种绘画进程天生方式。试验成果表现,MakeAnything 的成果在图文分歧性, 逻辑连接性、有效性上获得当先。3. 融化试验咱们对错误称 LoRA 停止了融化试验,下图对照了肖像天生跟草图天生的成果。前者在 50 张肖像绘画序列上练习, 后者在 300 张卡通脚色草图序列上练习。咱们对照了基本模子的成果、尺度 LoRA 的成果,以及采取对错误称 LoRA 的成果。从成果能够看出,只管基本无奈天生公道的分步调成果,然而图文分歧性团体不错。采取尺度 LoRA 在种别散布不平均的小数据上练习招致了重大的过拟合,固然分步调的进程公道,图文分歧性明显变差。而采取错误称 LoRA 成果很好的统筹进程公道性跟图文分歧性。咱们以为在海量进程数据上练习的 A 矩阵进修到了更多通用的常识,有利于缓解过拟合。表 2 展现了在更多义务上的定量试验成果,进一步证明论断。结语MakeAnything 标记着 AI 从 “天生成果” 迈向 “天生进程” 的要害一步。更多细节见原文:https://arxiv.org/abs/2502.01572 其代码、模子与数据集已开源 GitHub: https://github.com/showlab/MakeAnything,等待更多开辟者独特摸索进程天生的无穷可能。