何凯明新作:Just image Transformers 让去噪模型回归基础

机器之心报告编辑:冷毛,+0 众所周知,成像和扩散去噪模型是密不可分的。使用扩散模型实现高质量图像的生成。但有没有可能“噪声扩散模型”并没有真正实现“噪声”呢? ResNet之父、AI大师何凯明发表的一篇引用量超过70万次的新文章详细分析了这一现象。当生成扩散模型首次提出时,中心思想被认为是“去噪”,即从损坏的图像中预测干净的图像。然而,扩散模型发展的两个重要里程碑偏离了直接预测干净图像的目标。首先,预测噪声本身(称为“ϵ预测”)导致生成质量发生显着变化,并对这些模型的流行做出了重大贡献。delos。然后将扩散模型连接到基于流的生成方法,该方法结合了干净的数据和n通过预测流速(“预测”)来控制噪声。流形假设假设自然图像位于高维像素空间中的低维流形上。干净的图像可以建模为开放流形,但噪声 ϵ 或流速(例如 = − ϵ)本质上是淬火流形。因此,要求神经网络预测干净图像(即 – 预测)与要求其预测噪声或噪声量(即 ϵ/- 预测)本质上是不同的。当前的扩散去噪模型在经典的“噪声消除”意义上不起作用。这些神经网络预测噪声或噪声量。预测干净数据本质上不同于预测噪声量。根据多重假设,自然数据应该在低维流形上,并且噪声量不应该在其上。从这个假设出发,何凯明的新论文主张使用直接预测干净数据的模型。这允许应用的网络ar 没有足够的能力在非常高维度的空间中有效运行。在本研究中,我们将去噪扩散模型归根结底,并探索一种自洽范式,用于根据数据构建基于变压器的扩散模型。文章标题:回归基础:让生成去噪模型进行去噪文章链接:https://arxiv.org/abs/2511.13720v1Github 链接:https://github.com/LTH14/JiT 在本文中,我们介绍了“Just Image Transformer”,它可以是一个强大的生成模型,仅使用简单的像素级大块变换器,无需标记器。 (J.iT)”。预训练或额外损失期。架构为:在ImageNet上实现像素空间的竞争图像生成,在没有外部组件的情况下实现分辨率为256×256的1.82 FID和分辨率为512×512的1.78 FID。本文的工作朝着基于原生数据的自洽“扩散+变压器”原理又迈进了一步。这个原理ple 具有超越计算机视觉领域的潜在价值,在涉及蛋白质、分子和天气等自然数据的其他领域中,标记器的设计通常很困难。 Just image TransformersViT 的核心概念是基于补丁的变压器(ToP),本研究的架构设计遵循这一理念,遵循这一标准实践。研究人员使用 adaLN-Zero 进行条件处理融合(DiT),直接应用于像素补丁。整体架构是一个名为 JiT 的 Just 图像转换器。例如,JiT/16 使用 256 × 256 图像(即补丁大小 p = 16)进行研究,JiT/32 使用 512 × 512 图像(p = 32)进行研究。这些配置导致每个 patch 的尺寸分别为 768 (16×16×3) 和 3072 (32×32×3)。这些高维补丁可以通过预测来处理。网络应该预测什么?表 1 总结了损失和预测空间的九种可能的组合。对于每种组合离子,研究人员训练了一个基本模型(JiT-B),每个标记的隐藏层大小为 768 维。研究人员研究了表2(a)中分辨率为256×256的JiT-B/16。作为参考,他们在表 2(b) 中以 64 × 64(即 p = 4)的分辨率检查了 JiT-B/4。在两种配置中,序列的长度相同 (16×16)。观察结果如下。 -预测很重要 对于表2(a)中的JiT-B/16,只有-预测效果很好,并且在所有三个损失函数下都有效。这里,补丁有 768 个维度(16×16×3),与 JiT-B 中隐藏层的大小 768 相匹配。虽然这看起来“足够好”,但实际上您的模型可能需要额外的容量,例如处理位置嵌入。对于 ϵ 预测或 ϵ 预测,模型没有足够的能力来分离和保留噪声量。这些观察结果与玩具的观察结果类似(图 2)。为了进行比较,我们检查了 64 × 64 分辨率的 JiT-B/4(表 2 (b))。曾经这里一切都运转良好。九种组合之间的准确度差异很小且不确定。我们发现所有组合都工作得相当好,因为每个补丁的尺寸为 48 (4×4×3),这比 taJiT-B 隐藏层尺寸 768 小得多。请注意,许多以前的潜在扩散模型具有类似的小输入尺寸,因此不会遇到此处描述的问题。仅权衡损失是不够的。结合相关因素。这项工作并不是第一个列出的;之前的工作考虑了损失加权和网络预测的结合。他们的实验是使用 U-net 在低维 CIFAR-10 数据集上进行的。他们的观察结果与 ImageNet 64×64 研究人员的结果接近。然而,表 2(a) 中 ImageNet 256 × 256 的结果表明损失权重并不是一切。另一方面,无论损失空间如何,预测 ϵ 或预测都会在表中遭受灾难性失败e 2(a)。这对应于不同损失空间中的不同有效权重(如上所述)。另一方面,预测在所有三个损失空间中都有效。权衡损失所带来的损失是可取的,但并不关键。仅噪声级补偿是不够的。先前的研究表明,增加噪声水平有助于基于高分辨率像素的扩散。研究人员使用表 3 中的 JiT-B/16 验证了这一点。由于研究人员使用正态 Logit 分布对 t 进行采样,因此他们可以通过改变该分布的参数 μ 来改变噪声水平。直观上,将 μ 移至负值会降低 t 并增加噪声水平(等式(1))。表 3 显示,与之前的观察结果一致,当模型(此处为 x-pred)已经表现良好时,适度的高噪声是有益的。然而,简单地调整噪声水平并不能纠正 ϵ 或 – 的预测。它的失败本质上是由于它无法传播来自更高维度的信息。根据表3,研究人员在ImageNet 256 × 256 上的其他实验中将μ 设置为-0。.8。无需添加更多隐藏驱动器。由于容量可能受到网络宽度(即隐藏单元数量)的限制,因此增加容量是一个自然的想法。然而,当观测的维数非常高时,这种解决方案是无原则且不可行的。研究人员表明,这在预测的情况下是不必要的。表 5 和表 6 显示了分辨率为 512 的 JiT/32 和分辨率为 1024 的 JiT/64 的结果,使用比例较大的补丁大小 p=32 或 p=64。这对应于每个 patch 的 3072 维(即 32 × 32 × 3)或 12288 维,这比模型 B、L 和 H 的隐藏层大小大得多。不过,预测效果很好。事实上,除了缩放噪声(例如,分辨率 512 和 1024 分别为 2 倍和 4 倍)之外,它无需任何更改即可工作。这一证据表明,与许多其他神经网络应用一样,网络设计可以在很大程度上与观察维度脱钩。增加隐藏单元的数量可能是有益的(正如深度学习中广泛看到的那样),但它不是决定因素。瓶颈结构可能是有益的 更令人惊讶的是,研究人员发现,相反,在网络中引入低维瓶颈结构可能是有益的。具体来说,我们将线性补丁嵌入层转换为低秩线性层,用一组瓶颈(但仍然是线性)层替换它。第一层将维度减小到 d’,第二层将其扩展为 Transformer 隐藏层的大小。这两层都是线性的并且充当低秩重参数化。图 4 使用 JiT-B/16(原始补丁有 768 个维度)绘制了 FID 和瓶颈维度 d’ 之间的关系。减少瓶颈的尺寸,甚至小至 16 维,不会造成灾难性的故障。事实上,将瓶颈尺寸设置为较宽的范围(32 到 512)可以提高质量并将 FID 提高到大约 1.3。从表征学习的更广泛的角度来看,这一观察结果并不完全出乎意料。通常引入瓶颈设计是为了促进单个低维表示的学习。算法最终算法使用-prediction和-loss。这对应于表1(3)(a)。正式来说,研究人员是执行优化的人。算法 1 显示了训练步骤的伪代码,算法 2 显示了采样步骤的伪代码(可扩展至 Euler、Heun 或其他求解器)。为了简洁起见,省略了分类条件反射和 CFG,但两者都遵循标准实践。为了避免在计算 1/(1-t) 时被零除,请在计算此除法时截断分母(默认值为 0.05)。更先进的变压器通用变压器的好处之一Transformer 的优点是,当其设计与特定任务解耦时,它可以从其他应用程序中开发的架构进步中受益。此功能通过使用与任务无关的转换器来创建扩散模型来巩固其优势。研究人员整合了流行的常见改进 SwiGLU、RMSNorm、RoPE 和 qk-norm。所有这些最初都是为语言模型开发的。研究人员还考虑了上下文中的类别调节。然而,最初的 ViT 不是仅向序列添加一个类别标记,而是添加了多个此类标记(默认为 32 个)。表 4 显示了这些组件的效果。实验和比较 图 5:定性结果。一些示例是使用 JiT-H/32 在 ImageNet 512 × 512 上生成的。像素空间中的高分辨率生成 表 5 进一步报告了 ImageNet 上基本比例模型 (JiT-B) 在分辨率 512 和 1024 下的结果。我们使用与图像大小成正比的 patch 大小,因此序列长度在不同分辨率下保持不变。单个 patch 的维度可以高达 3072 或 12288,典型模型没有足够的隐藏单元来匹配这些维度。表5显示该模型在不同分辨率下均取得了良好的性能。所有模型都具有相似数量的参数和计算成本,唯一的区别是由于输入和输出补丁的合并。 child方法不会遭受观察维度的诅咒。可扩展性 将 Transformer 框架与任务本身解耦的主要目标之一是利用其可扩展性潜力。表 6 显示了 ImageNet 分辨率 256 和 512 下四种模型大小的结果(请注意,在分辨率 512 下,这些模型的隐藏单元数量都不大于块尺寸)。模型大小和 FLOPs 如表 7 和表 8 所示。分辨率为 256 的模型的成本与分辨率为 256 的相应模型类似。512 的分辨率。有趣的是,随着模型尺寸的增加,256 和 512 分辨率之间的 FID 差距减小。对于 JiT-G,分辨率为 512 时的 FID 甚至更低。对于ImageNet上非常大的模型,FID的性能高度依赖于过拟合,而分辨率为512的去噪任务更加困难,因此不太容易出现过拟合。研究人员使用先前研究的基线结果作为参考,并将其与表7和表8中的先前结果进行比较,标记了每种方法中包含的预训练组件。与其他像素空间方法相比,我们的方法完全基于简单的通用变压器。本文中的模型计算友好,不需要解决问题。将速率加倍通常会增加二次计算成本(参见表 8 中的 FLOP)。表 7:ImageNet 256 × 256 上的参考结果。评估指标是 50,000 个样本的 FID 和 IS。 Pre-trained 列列出了预训练编辑了实现这些结果所需的外部模型。参数量统计包括分词器生成器和解码器(用于推理阶段),但不包括其他预训练组件。 Gigaflops 测量基于单个前向传递(无标记器),并且与训练和推理期间每次迭代的计算成本大致成正比。表 8:ImageNet 512×512 基准测试结果。 JiT 采用更积极的补丁大小,可以通过更少的计算工作获得更稳健的结果。符号描述与表7中的类似。我们的方法不使用额外的损失或预训练,可以进一步提高性能。本概述主要关注概率建模的形式,较少关注所使用的神经网络的功能(和局限性)。然而,神经网络并不具有无限的能力。他们非常擅长利用这种能力来建模数据,而不是噪音。从这个角度来看,预测结果并不奇怪。论文工作有一个最小的设计准备和一致。研究人员希望通过减轻特定领域的归纳偏差,该方法可以推广到难以获得分词器的其他领域。这一特性在涉及原始、高维自然数据的科学应用中尤其重要。研究人员预计,这种普遍的“扩散+变革”范式可能成为其他领域的基本技术之一。请参阅原始文章了解更多详细信息。
特别提示:以上内容(包括图片、视频,如有)由自有媒体平台“网易账号”用户上传发布。本平台仅提供信息存储服务。
注:以上内容(包括图片和视频,如有)由网易号用户上传发布,网易号是一个仅提供信息存储服务的社交媒体平台。

此条目发表在每日更新分类目录。将固定链接加入收藏夹。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注