图像生成新霸主！目前最强大文生图开源模型FLUX

图像生成新霸主！目前最强大文生图开源模型FLUX

8个月前更新

01148

就在Midjourney进行大更新的第二天，开源图像生成领域迎来了新的黑马—FLUX.1。这款新模型不仅声称性能超越DALL·E3、Midjourney V6等闭源模型，还大幅领先于开源的SD3系列。FLUX.1可以准确生成人手和手指，这一问题一直是AI图像生成模型的一大挑战，而FLUX.1在这方面取得了突破性进展。（在线访问和Github以及ComfyUI在文章底部）FLUX.1的创始人Robin Rombach是扩散模型领域的权威专家，他曾领导了Stable Diffusion系列项目。今年3月，由于Stability AI内部动荡，Robin选择离开。经过四个月，他带着新的开源大模型平台FLUX.1重磅回归。FLUX.1一亮相就获得了由Andreessen Horowitz领投的3200万美元种子轮融资，这无疑为其未来发展注入了强劲动力。FLUX.1模型家族包括三个变体：FLUX.1 [pro]商业用途、FLUX.1 [dev]学术研究和FLUX.1 [schnell]本地开发，分别针对商业应用、学术研究和个人使用进行了优化。

模型特性

大规模参数：拥有12B（120亿）参数，是迄今为止最大的开源文本到图像模型之一。

多模态架构：基于多模态和并行扩散Transformer块的混合架构，提供强大的图像生成能力。

图像质量：在视觉质量、提示词遵循、大小/纵横比可变性、字体和输出多样性等方面超越了其他流行的模型。

技术创新：引入了流匹配训练方法、旋转位置嵌入和并行注意力层，提高了模型性能和硬件效率。

FLUX.1模型采用并行扩散Transformer块，通过高效处理序列数据，增强了信息编码和解码能力。使用流匹配训练方法简化了训练过程并提高生成质量，同时引入旋转位置嵌入技术，提升了图像细节表现。并行注意力层使模型能同时关注输入序列中的多个部分，捕捉长距离依赖关系，提高生成图像的准确性。

所有 FLUX.1 型号都支持不同的长宽比和分辨率（10 万和 200 万像素），如下图所示。

以replicate为例，可以看到左侧可以调整提示词、比率以及输出质量等。

LUX.1 在文字生成、复杂指令遵循和人手生成上具备优势。

具体示例+提示词

超现实：abstract chrome 80s scifi automaton, airbrush

文字：

真实人物：kyle sleeping on the couch

动物：professional photograph of a lynx lit by moody harsh lighting in the middle of a forest

风景：

© 版权声明

THE END

喜欢就支持一下吧

相关推荐

评论抢沙发

欢迎您留下宝贵的见解！

提交

暂无评论内容