经过一年的努力,阿里巴巴的AI团队近日发布了一个令人瞩目的成果:Qwen2-VL,这是一款全新的多模态大模型,这一版本是Qwen模型系列中的最新成员,基于之前的Qwen2进行了升级和优化,尤其在视觉和语言的结合上表现出色。
Qwen2-VL在高分辨率及不同比例图像理解方面表现出色,超越了多项基准测试,并具备理解长达20分钟视频内容的能力,支持视频问答、对话和内容创作。此外,Qwen2-VL具备复杂推理和决策能力,能够与智能设备无缝集成,通过视觉或文本指令操控设备。多语言支持也是其亮点,覆盖了包括英语、中文、日语、韩语等多种语言。阿里巴巴已在Apache 2.0许可证下开源Qwen2-VL,提供多个版本,并与Hugging Face Transformers等平台集成,便于开发者使用和二次开发。
01 模型架构—
该模型虽强大,但存在局限性,如无法提取视频音频,知识更新仅到 2023 年 6 月。在处理复杂指令、计数、字符识别和 3D 感知任务时,模型表现较弱,准确性有限。该架构结合了 ViT 模型和 Qwen2 语言模型,使用约 6 亿参数的 ViT 来处理图像和视频输入。为增强模型理解视频中视觉信息的能力,进行了几项关键升级:
- Qwen2-VL 的主要改进之一是实现了动态分辨率支持,使其能够处理任意分辨率的图像,并动态调整视觉标记数量。这一改进使模型更接近人类视觉感知,适应各种清晰度或大小的图像。
- 另一个关键增强是多模态旋转位置嵌入 (M-ROPE)。它将旋转嵌入解构为时间、空间(高度和宽度)三部分,使模型能同时捕捉并整合 1D 文本、2D 视觉和 3D 视频位置信息。
02 模型表现从六个关键维度评估了模型的视觉能力:复杂问题解决、数学、文档和表格理解、多语言文本图像理解、场景问答、视频理解及基于代理的交互。总体而言,72B 模型在大多数指标上表现出顶级性能,常超越 GPT-4o 和 Claude 3.5-Sonnet 等闭源模型,特别在文档理解方面优势显著。
7B 模型保留了图像、多图像和视频输入的支持,实现了更具成本效益的模型。该模型在文档理解(如 DocVQA)和图像多语言文本理解(如 MTVQA)任务中表现出色,达到了最先进的性能。
用于移动部署的 2B 模型。尽管体积小巧,但它在图像、视频、多语言理解,以及视频任务、文档理解和场景问答方面表现出色。
暂无评论内容