Jina又开源向量V3:8K长度,卷疯了!

Jina AI宣布推出jina-embeddings-v3,一个拥有5.7亿参数的前沿文本向量模型。它在多语言数据长文本检索任务上实现了最先进的性能,支持长达8192个token的输入长度。该模型具有针对特定任务的低秩适应(LoRA)适配器,使其能够为各种任务生成高质量的嵌入,包括查询检索、文档检索、聚类、分类和文本匹配

向量模型的规模法则(Scaling Law)。在英语任务上的平均MTEB性能与模型参数数量对比图。可以看出,jina-embeddings-v3与相似大小的模型相比展现出了更优越的性能,同时也显示出比其前身jina-embeddings-v2有超线性的提升。
IMG_256
在MTEB英语、多语言和LongEmbed的评估中,jina-embeddings-v3在英语任务上超越了OpenAI和Cohere的最新专有向量模型,同时在所有多语言任务上也超过了multilingual-e5-large-instruct。
IMG_257
IMG_258

IMG_259

得益于套娃式表征学习(Matryoshka Representation Learning, MRL)的集成,用户可以将嵌入维度任意截断至32,而不会牺牲性能,默认输出维度为1024,支持灵活的维度(32, 64, 128, 256, 512, 768, 1024)截至2024年9月18日发布,jina-embeddings-v3是最佳的多语言模型,在少于10亿参数的MTEB英语排行榜上排名第二。v3总共支持89种语言,包括中文。
IMG_260jina-embeddings-v3模型结构
IMG_261

为了实现骨干架构,对XLM-RoBERTa模型进行了几项关键修改:

使长文本序列的有效编码成为可能,

允许特定任务的嵌入编码,

通过最新技术提高整体模型效率。

继续使用原始的XLM-RoBERTa分词器。尽管拥有5.7亿参数的jina-embeddings-v3比拥有1.37亿参数的jina-embeddings-v2要大,但它仍然比从大型语言模型(LLMs)微调的嵌入模型要小得多。

jina-embeddings-v3的架构

IMG_262
jina-embeddings-v3的关键创新是使用了LoRA适配器。引入了五个特定任务的LoRA适配器,LoRA适配器占总参数的不到3%,对计算的开销非常小。模型的输入由两部分组成:文本(要嵌入的长文档)和任务5个任务task类型描述

IMG_263

© 版权声明
THE END
喜欢就支持一下吧
点赞13 分享
评论 抢沙发
头像
欢迎您留下宝贵的见解!
提交
头像

昵称

取消
昵称表情代码图片

    暂无评论内容