多视图一致性生成神器!北航开源MV-Adapter轻松插拔、功能丰富

现有的多视图图像生成方法往往需要对预训练的文本到图像(T2I)模型进行大幅度的改动,还需要全面微调,这带来了两个主要问题:计算成本高,特别是在处理大型基础模型和高分辨率图像时,这种方法非常耗资源;图像质量下降,由于优化过程困难以及高质量3D数据稀缺,生成的图像质量常常无法达到预期。

基于以上问题,北航提出了第一个基于适配器的多视图图像生成解决方案,名为MV-Adapter。它是一种多功能的即插即用适配器,能够在不改变原有网络结构或特征空间的情况下增强T2I模型及其衍生模型。MV-Adapter 在 Stable Diffusion XL (SDXL) 上实现了高达768分辨率 的多视图图像生成,并展示了出色的适应性和多功能性。它还能扩展到任意视角生成,为更广泛的应用打开了新大门。

01 技术原理

MV-Adapter 是一种即插即用的适配器,能够学习多视图的先验知识,并将这些知识迁移到 T2I 模型的不同变体中,无需特别调整。它让 T2I 模型在各种条件下生成多视图一致的图像。

IMG_256

在推理阶段,MV-Adapter 包含一个条件引导器(黄色部分)和解耦注意力层(蓝色部分)。它可以直接插入到定制版或简化版的 T2I 模型中,变身为一个能够生成多视图图像的工具。

IMG_257

MV-Adapter 有两个主要组成部分:

  1. 条件引导器:用于编码相机条件或几何条件,让模型能更好地理解视角或空间信息。
  2. 解耦注意力层:包含多视图注意力层,用来学习多视图的一致性。同时还有可选的图像交叉注意力层,支持基于图像生成的功能。这里用预训练的 U-Net 对参考图像进行编码,提取细致的信息供生成使用。

支持ComfyUI:

IMG_256

© 版权声明
THE END
喜欢就支持一下吧
点赞14 分享
评论 抢沙发
头像
欢迎您留下宝贵的见解!
提交
头像

昵称

取消
昵称表情代码图片

    暂无评论内容