瑞士洛桑联邦理工学院的研究团队推出了一种名为ViPer的新方法,这是一种创新的图像生成工具,专为Stable Diffusion提供个性化图像生成功能。ViPer的核心技术在于它能够学习并记住用户的偏好,从而生成符合用户个人审美的图像。这种个性化生成方法大大提升了用户体验,使得图像生成过程更加贴合用户的独特品味和需求。
ViPer 的工作原理非常简单。用户只需一次性对一组图片进行评论,这些评论将用于提取他们的视觉偏好。这样一来,生成模型便能在无需复杂提示的情况下进行个性化调整,根据这些属性生成符合用户喜好的图片。在生成新图像时,ViPer 将用户的偏好作为指导原则。它不仅会结合用户明确表达的喜好,还会避免包含那些用户不喜欢的元素。因此,生成的图像将尽可能地反映出用户的个性化视觉风格,使图像生成更加贴合用户的独特审美。(Github和Huggingface链接在文章底部)工作原理
ViPer要求用户针对部分图片给出自己的评价,评价没有任何要求,用户自然语言描写即可。然后利用视觉偏好提取器 (VPE)提取用户偏好,然后对用户的视觉偏好进行编码并添加到后续的提示词中。
同时,项目还引入了一种代理指标模型,可以根据用户对喜欢和不喜欢的图像的反馈预测他们对某个图像的偏好分数。这意味着用户可以更好地了解自己对新图像的潜在喜好。ViPer 提供了一种代理评分机制,评分范围从 0 到 1,分数越高表示用户越喜欢这幅图像。研究团队建议每个用户提供大约 8 张喜欢的和 8 张不喜欢的图像,以确保评分结果的准确性。如何使用项目在huggingface提供了在线访问,你可以直接对给出的图像进行喜爱度和讨厌度评价,也可以自己上传图片进行评价。
评价后,ViPer会给出它识别的用户喜爱度和讨厌度偏好,用户可以继续进行修改,防止出现大模型幻觉问题。
接下来可以输入自己的提示词,或者选择给出Demo提示词,然后点击生成即可。
当然,项目也支持本地使用,配置和使用非常简单。首先,安装所需要的依赖。
pip install pillow peft transformers diffusers
通过代码从一组图像及其评论中提取用户的视觉偏好,然后利用这些偏好来指导 Stable Diffusion 生成符合个人品味的图像。用户需要对图片进行评论。评论应从艺术角度解释用户喜欢或不喜欢某张图片的原因。评论越详细,生成的结果就越个性化。建议用户至少评论 8 张图片。请调整图片路径及其对应的评论列表。个性化生成的结果将保存在 results/ 目录中。(参考Github)
https://huggingface.co/spaces/EPFL-VILAB/ViPerhttps://github.com/EPFL-VILAB/ViPer
暂无评论内容