清北港中文联合打造图搜图模型:FreestyleRet多风格查询开源神器

你每天都被海量图片包围,但有没有想过,有一天只需一张草图、一幅艺术画,甚至一张模糊照片,就能立即找到你想要的图片?北京大学、清华大学和香港中文大学联手推出了一项全新图像检索技术。无论是草图、艺术画,还是低分辨率的图片,这项技术都能精确匹配,让你轻松找到所需图像。

FreestyleRet 优秀的原因在于他们提出的“通用风格检索”方法。不同于传统的文字搜索,这种新方法可以处理多种风格的查询,甚至可以组合查询,比如草图加文字、艺术画加文字等。它不仅让搜索变得更快速,还大大提高了检索的准确度。(代码、论文、模型和数据集链接在文章底部)FreestyleRet 是首个支持多种风格检索的模型,专注于精准搜索领域。它的亮点是,基于gram的风格模块仅需28M可训练参数,就能无缝移植到其他任何预训练模型中,方便又高效。
IMG_256

每个样本包含三张图片,用于比较 FreestyleRet 与 BLIP 基准模型在 DSR 数据集上的检索性能。左边的图片是随机选择的不同风格的查询图像。中间和右边的图片分别是 FreestyleRet-BLIP 模型和原始 BLIP 模型的检索结果。

01 技术原理—

(a). 以往的检索模型主要专注于基于文本查询的检索探索,忽视了对其他查询风格的检索能力。(b). FreestyleRet的多样化风格检索设置考虑了用户可能偏好的各种查询风格,包括草图、艺术画、低分辨率图像、文本及其组合,如草图+文本、艺术画+文本等。FreestyleRet模型基于多样化风格的查询输入,通过形状、颜色和姿势特征进行细粒度的检索。(c). FreestyleRet模型与其他检索基准模型的性能对比。
IMG_257
提出了多样风格检索数据集(DSR),包含10,000张自然图像及其对应的不同风格查询,包括草图、艺术画、低分辨率图像(Low-Res)和文本。多样风格检索数据集是首个用于风格多样化查询图像检索任务的数据集。
IMG_258
FreestyleRet 的整体框架  对于风格多样化的查询输入,首先通过基于 Gram 的风格提取模块计算查询的 Gram 矩阵,以提取查询的纹理特征。然后,通过聚类所有的 Gram 矩阵构建查询的风格空间,并将每个聚类中心作为风格空间中的风格基准。接着,通过根据输入查询与风格空间中每个风格基准之间的距离加权汇总风格基准,提取查询的风格特征。最后,在风格初始化提示调优模块中,使用 Gram 矩阵和风格特征初始化提示 tokens,将纹理和风格信息引导到特征编码器,以进行进一步的风格多样化检索预测。
IMG_259

https://arxiv.org/pdf/2312.02428https://github.com/CuriseJia/FreeStyleRet/tree/mainhttps://huggingface.co/datasets/Curise/FreeStyleRet-DSR

© 版权声明
THE END
喜欢就支持一下吧
点赞8 分享
评论 抢沙发
头像
欢迎您留下宝贵的见解!
提交
头像

昵称

取消
昵称表情代码图片

    暂无评论内容