多视图一致性生成神器！北航开源MV-Adapter轻松插拔、功能丰富

多视图一致性生成神器！北航开源MV-Adapter轻松插拔、功能丰富

3个月前更新

05314

现有的多视图图像生成方法往往需要对预训练的文本到图像（T2I）模型进行大幅度的改动，还需要全面微调，这带来了两个主要问题：计算成本高，特别是在处理大型基础模型和高分辨率图像时，这种方法非常耗资源；图像质量下降，由于优化过程困难以及高质量3D数据稀缺，生成的图像质量常常无法达到预期。

基于以上问题，北航提出了第一个基于适配器的多视图图像生成解决方案，名为MV-Adapter。它是一种多功能的即插即用适配器，能够在不改变原有网络结构或特征空间的情况下增强T2I模型及其衍生模型。MV-Adapter 在 Stable Diffusion XL (SDXL) 上实现了高达768分辨率 的多视图图像生成，并展示了出色的适应性和多功能性。它还能扩展到任意视角生成，为更广泛的应用打开了新大门。

01 技术原理

—

MV-Adapter 是一种即插即用的适配器，能够学习多视图的先验知识，并将这些知识迁移到 T2I 模型的不同变体中，无需特别调整。它让 T2I 模型在各种条件下生成多视图一致的图像。

在推理阶段，MV-Adapter 包含一个条件引导器（黄色部分）和解耦注意力层（蓝色部分）。它可以直接插入到定制版或简化版的 T2I 模型中，变身为一个能够生成多视图图像的工具。

MV-Adapter 有两个主要组成部分：

条件引导器：用于编码相机条件或几何条件，让模型能更好地理解视角或空间信息。
解耦注意力层：包含多视图注意力层，用来学习多视图的一致性。同时还有可选的图像交叉注意力层，支持基于图像生成的功能。这里用预训练的 U-Net 对参考图像进行编码，提取细致的信息供生成使用。

支持ComfyUI：

© 版权声明

THE END

喜欢就支持一下吧

相关推荐

评论抢沙发

欢迎您留下宝贵的见解！

提交

暂无评论内容