何凯明新作：Just image Transformers 让去噪模型回归基础

机器之心报告编辑：冷毛，+0 众所周知，成像和扩散去噪模型是密不可分的。使用扩散模型实现高质量图像的生成。但有没有可能“噪声扩散模型”并没有真正实现“噪声”呢？ ResNet之父、AI大师何凯明发表的一篇引用量超过70万次的新文章详细分析了这一现象。当生成扩散模型首次提出时，中心思想被认为是“去噪”，即从损坏的图像中预测干净的图像。然而，扩散模型发展的两个重要里程碑偏离了直接预测干净图像的目标。首先，预测噪声本身（称为“ϵ预测”）导致生成质量发生显着变化，并对这些模型的流行做出了重大贡献。delos。然后将扩散模型连接到基于流的生成方法，该方法结合了干净的数据和n通过预测流速（“预测”）来控制噪声。流形假设假设自然图像位于高维像素空间中的低维流形上。干净的图像可以建模为开放流形，但噪声 ϵ 或流速（例如 = − ϵ）本质上是淬火流形。因此，要求神经网络预测干净图像（即 – 预测）与要求其预测噪声或噪声量（即 ϵ/- 预测）本质上是不同的。当前的扩散去噪模型在经典的“噪声消除”意义上不起作用。这些神经网络预测噪声或噪声量。预测干净数据本质上不同于预测噪声量。根据多重假设，自然数据应该在低维流形上，并且噪声量不应该在其上。从这个假设出发，何凯明的新论文主张使用直接预测干净数据的模型。这允许应用的网络ar 没有足够的能力在非常高维度的空间中有效运行。在本研究中，我们将去噪扩散模型归根结底，并探索一种自洽范式，用于根据数据构建基于变压器的扩散模型。文章标题：回归基础：让生成去噪模型进行去噪文章链接：https://arxiv.org/abs/2511.13720v1Github 链接：https://github.com/LTH14/JiT 在本文中，我们介绍了“Just Image Transformer”，它可以是一个强大的生成模型，仅使用简单的像素级大块变换器，无需标记器。 (J.iT)”。预训练或额外损失期。架构为：在ImageNet上实现像素空间的竞争图像生成，在没有外部组件的情况下实现分辨率为256×256的1.82 FID和分辨率为512×512的1.78 FID。本文的工作朝着基于原生数据的自洽“扩散+变压器”原理又迈进了一步。这个原理ple 具有超越计算机视觉领域的潜在价值，在涉及蛋白质、分子和天气等自然数据的其他领域中，标记器的设计通常很困难。 Just image TransformersViT 的核心概念是基于补丁的变压器（ToP），本研究的架构设计遵循这一理念，遵循这一标准实践。研究人员使用 adaLN-Zero 进行条件处理融合（DiT），直接应用于像素补丁。整体架构是一个名为 JiT 的 Just 图像转换器。例如，JiT/16 使用 256 × 256 图像（即补丁大小 p = 16）进行研究，JiT/32 使用 512 × 512 图像（p = 32）进行研究。这些配置导致每个 patch 的尺寸分别为 768 (16×16×3) 和 3072 (32×32×3)。这些高维补丁可以通过预测来处理。网络应该预测什么？表 1 总结了损失和预测空间的九种可能的组合。对于每种组合离子，研究人员训练了一个基本模型（JiT-B），每个标记的隐藏层大小为 768 维。研究人员研究了表2(a)中分辨率为256×256的JiT-B/16。作为参考，他们在表 2(b) 中以 64 × 64（即 p = 4）的分辨率检查了 JiT-B/4。在两种配置中，序列的长度相同 (16×16)。观察结果如下。 -预测很重要对于表2(a)中的JiT-B/16，只有-预测效果很好，并且在所有三个损失函数下都有效。这里，补丁有 768 个维度（16×16×3），与 JiT-B 中隐藏层的大小 768 相匹配。虽然这看起来“足够好”，但实际上您的模型可能需要额外的容量，例如处理位置嵌入。对于 ϵ 预测或 ϵ 预测，模型没有足够的能力来分离和保留噪声量。这些观察结果与玩具的观察结果类似（图 2）。为了进行比较，我们检查了 64 × 64 分辨率的 JiT-B/4（表 2 (b)）。曾经这里一切都运转良好。九种组合之间的准确度差异很小且不确定。我们发现所有组合都工作得相当好，因为每个补丁的尺寸为 48 (4×4×3)，这比 taJiT-B 隐藏层尺寸 768 小得多。请注意，许多以前的潜在扩散模型具有类似的小输入尺寸，因此不会遇到此处描述的问题。仅权衡损失是不够的。结合相关因素。这项工作并不是第一个列出的；之前的工作考虑了损失加权和网络预测的结合。他们的实验是使用 U-net 在低维 CIFAR-10 数据集上进行的。他们的观察结果与 ImageNet 64×64 研究人员的结果接近。然而，表 2(a) 中 ImageNet 256 × 256 的结果表明损失权重并不是一切。另一方面，无论损失空间如何，预测 ϵ 或预测都会在表中遭受灾难性失败e 2(a)。这对应于不同损失空间中的不同有效权重（如上所述）。另一方面，预测在所有三个损失空间中都有效。权衡损失所带来的损失是可取的，但并不关键。仅噪声级补偿是不够的。先前的研究表明，增加噪声水平有助于基于高分辨率像素的扩散。研究人员使用表 3 中的 JiT-B/16 验证了这一点。由于研究人员使用正态 Logit 分布对 t 进行采样，因此他们可以通过改变该分布的参数 μ 来改变噪声水平。直观上，将 μ 移至负值会降低 t 并增加噪声水平（等式（1））。表 3 显示，与之前的观察结果一致，当模型（此处为 x-pred）已经表现良好时，适度的高噪声是有益的。然而，简单地调整噪声水平并不能纠正 ϵ 或 – 的预测。它的失败本质上是由于它无法传播来自更高维度的信息。根据表3，研究人员在ImageNet 256 × 256 上的其他实验中将μ 设置为-0。.8。无需添加更多隐藏驱动器。由于容量可能受到网络宽度（即隐藏单元数量）的限制，因此增加容量是一个自然的想法。然而，当观测的维数非常高时，这种解决方案是无原则且不可行的。研究人员表明，这在预测的情况下是不必要的。表 5 和表 6 显示了分辨率为 512 的 JiT/32 和分辨率为 1024 的 JiT/64 的结果，使用比例较大的补丁大小 p=32 或 p=64。这对应于每个 patch 的 3072 维（即 32 × 32 × 3）或 12288 维，这比模型 B、L 和 H 的隐藏层大小大得多。不过，预测效果很好。事实上，除了缩放噪声（例如，分辨率 512 和 1024 分别为 2 倍和 4 倍）之外，它无需任何更改即可工作。这一证据表明，与许多其他神经网络应用一样，网络设计可以在很大程度上与观察维度脱钩。增加隐藏单元的数量可能是有益的（正如深度学习中广泛看到的那样），但它不是决定因素。瓶颈结构可能是有益的更令人惊讶的是，研究人员发现，相反，在网络中引入低维瓶颈结构可能是有益的。具体来说，我们将线性补丁嵌入层转换为低秩线性层，用一组瓶颈（但仍然是线性）层替换它。第一层将维度减小到 d’，第二层将其扩展为 Transformer 隐藏层的大小。这两层都是线性的并且充当低秩重参数化。图 4 使用 JiT-B/16（原始补丁有 768 个维度）绘制了 FID 和瓶颈维度 d’ 之间的关系。减少瓶颈的尺寸，甚至小至 16 维，不会造成灾难性的故障。事实上，将瓶颈尺寸设置为较宽的范围（32 到 512）可以提高质量并将 FID 提高到大约 1.3。从表征学习的更广泛的角度来看，这一观察结果并不完全出乎意料。通常引入瓶颈设计是为了促进单个低维表示的学习。算法最终算法使用-prediction和-loss。这对应于表1(3)(a)。正式来说，研究人员是执行优化的人。算法 1 显示了训练步骤的伪代码，算法 2 显示了采样步骤的伪代码（可扩展至 Euler、Heun 或其他求解器）。为了简洁起见，省略了分类条件反射和 CFG，但两者都遵循标准实践。为了避免在计算 1/(1-t) 时被零除，请在计算此除法时截断分母（默认值为 0.05）。更先进的变压器通用变压器的好处之一Transformer 的优点是，当其设计与特定任务解耦时，它可以从其他应用程序中开发的架构进步中受益。此功能通过使用与任务无关的转换器来创建扩散模型来巩固其优势。研究人员整合了流行的常见改进 SwiGLU、RMSNorm、RoPE 和 qk-norm。所有这些最初都是为语言模型开发的。研究人员还考虑了上下文中的类别调节。然而，最初的 ViT 不是仅向序列添加一个类别标记，而是添加了多个此类标记（默认为 32 个）。表 4 显示了这些组件的效果。实验和比较图 5：定性结果。一些示例是使用 JiT-H/32 在 ImageNet 512 × 512 上生成的。像素空间中的高分辨率生成表 5 进一步报告了 ImageNet 上基本比例模型 (JiT-B) 在分辨率 512 和 1024 下的结果。我们使用与图像大小成正比的 patch 大小，因此序列长度在不同分辨率下保持不变。单个 patch 的维度可以高达 3072 或 12288，典型模型没有足够的隐藏单元来匹配这些维度。表5显示该模型在不同分辨率下均取得了良好的性能。所有模型都具有相似数量的参数和计算成本，唯一的区别是由于输入和输出补丁的合并。 child方法不会遭受观察维度的诅咒。可扩展性将 Transformer 框架与任务本身解耦的主要目标之一是利用其可扩展性潜力。表 6 显示了 ImageNet 分辨率 256 和 512 下四种模型大小的结果（请注意，在分辨率 512 下，这些模型的隐藏单元数量都不大于块尺寸）。模型大小和 FLOPs 如表 7 和表 8 所示。分辨率为 256 的模型的成本与分辨率为 256 的相应模型类似。512 的分辨率。有趣的是，随着模型尺寸的增加，256 和 512 分辨率之间的 FID 差距减小。对于 JiT-G，分辨率为 512 时的 FID 甚至更低。对于ImageNet上非常大的模型，FID的性能高度依赖于过拟合，而分辨率为512的去噪任务更加困难，因此不太容易出现过拟合。研究人员使用先前研究的基线结果作为参考，并将其与表7和表8中的先前结果进行比较，标记了每种方法中包含的预训练组件。与其他像素空间方法相比，我们的方法完全基于简单的通用变压器。本文中的模型计算友好，不需要解决问题。将速率加倍通常会增加二次计算成本（参见表 8 中的 FLOP）。表 7：ImageNet 256 × 256 上的参考结果。评估指标是 50,000 个样本的 FID 和 IS。 Pre-trained 列列出了预训练编辑了实现这些结果所需的外部模型。参数量统计包括分词器生成器和解码器（用于推理阶段），但不包括其他预训练组件。 Gigaflops 测量基于单个前向传递（无标记器），并且与训练和推理期间每次迭代的计算成本大致成正比。表 8：ImageNet 512×512 基准测试结果。 JiT 采用更积极的补丁大小，可以通过更少的计算工作获得更稳健的结果。符号描述与表7中的类似。我们的方法不使用额外的损失或预训练，可以进一步提高性能。本概述主要关注概率建模的形式，较少关注所使用的神经网络的功能（和局限性）。然而，神经网络并不具有无限的能力。他们非常擅长利用这种能力来建模数据，而不是噪音。从这个角度来看，预测结果并不奇怪。论文工作有一个最小的设计准备和一致。研究人员希望通过减轻特定领域的归纳偏差，该方法可以推广到难以获得分词器的其他领域。这一特性在涉及原始、高维自然数据的科学应用中尤其重要。研究人员预计，这种普遍的“扩散+变革”范式可能成为其他领域的基本技术之一。请参阅原始文章了解更多详细信息。
特别提示：以上内容（包括图片、视频，如有）由自有媒体平台“网易账号”用户上传发布。本平台仅提供信息存储服务。
注：以上内容（包括图片和视频，如有）由网易号用户上传发布，网易号是一个仅提供信息存储服务的社交媒体平台。

何凯明新作：Just image Transformers 让去噪模型回归基础

发表回复取消回复

近期文章

近期评论

归档

分类

何凯明新作：Just image Transformers 让去噪模型回归基础

发表回复 取消回复

近期文章

近期评论

发表回复取消回复