图文写作神器：Meta开源Chameleon模型，无缝处理文本与图像

如果你需要写一篇文章需要即包含文字又包含图片内容，通常的做法是写完文字后去查找符合的图片，或者是AI生成对应的图片，又或者是有一个Agent帮你通过提示词和你写的文字生成图片，这些方法都Out了。

Chameleon 是由 Meta 的 FAIR 团队开发的一个基于令牌的早期融合混合模态模型。Chameleon 将文本和图像作为输入，使用统一架构输出任意文本和图像组合，进行编码和解码。它能够同时处理图像和文本，并具备理解和生成这两种类型数据的能力。

换句话说，Chameleon 可以阅读文字和图片，并且也能创作新的文字和图片。在处理过程中，Chameleon 可以无缝地在不同数据类型之间切换。这意味着它能够在生成一段文字后，接着生成一张相关的图片，或者在描述一张图片的同时生成相关的文字。
工作原理不同于大多数基于扩散的后期融合模型，Meta Chameleon 对文本和图像进行标记化处理，使其更统一、更易设计、维护和扩展。它能为图像生成创意标题，或通过文本提示和图像混合创建全新场景，可能性无穷无尽。

Chameleon 模型的架构与 Llama 2 基本相同，但 Meta 的研究人员对底层 transformer 架构进行了调整，以便更好地处理混合模态。这些调整包括引入查询键规范化和修改层规范的放置位置。Chameleon 使用两个分词器来处理输入数据，一个用于文本，一个用于图像，并结合这些数据形成整体输入。输出时也遵循相同的过程，确保模型能专注于输入和输出的数据。

尽管 Chameleon 的大小不到 Llama 2 的一半，但通过这些改进，研究人员能够使用五倍于训练 Llama 2 的标记数来训练这个拥有 340 亿个参数的模型。多模态理解和生成Chameleon 能够理解和生成包含图像和文本的复杂内容。它可以在图像、文本和代码之间无缝切换，实现多种任务的高效处理和生成。

Chameleon 使用早期融合架构，将图像和文本数据从一开始就结合在一起进行处理，并通过统一的Token表示和 Transformer 架构处理这些Token序列。为了确保训练稳定性，Chameleon 引入了查询-键规范化和修订的层规范化与 dropout 技术，并采用自回归生成方法，先在大规模数据集上预训练，再在高质量数据集上进行微调。模型测评Chameleon 模型在视觉问答、图像描述、文本生成、图像生成和长格式混合模态生成等任务中表现出色，超越了 Llama-2，并与 Mixtral 8x7B、Gemini-Pro 等模型竞争，在人类评判的新长格式混合模态生成评估中表现匹配或超过了包括 Gemini Pro 和 GPT-4V 在内的更大模型。

THE END

AI资讯