智谱开源CogVLM2:新一代多模态大模型引领AI技术突破

u=4149201184,211667950&fm=30&app=106&f=JPEG
核心内容: 智谱·AI最近宣布推出新一代多模态大模型CogVLM2,该模型在关键性能指标上相较于前一代CogVLM有了显著提升,同时支持8K文本长度和高达1344*1344分辨率的图像。CogVLM2在OCRbench基准上性能提升了32%,在TextVQA基准上性能提升了21.9%,显示出强大的文档图像理解能力。尽管CogVLM2的模型大小为19B,但其性能接近或超过了GPT-4V的水平。 技术创新: CogVLM2的技术架构在上一代模型的基础上进行了优化,包括一个50亿参数的视觉编码器和一个70亿参数的视觉专家模块,这些模块通过独特的参数设置,精细地建模了视觉与语言序列的交互。这种深度融合策略使得视觉模态与语言模态能够更加紧密地结合,同时保持了模型在语言处理上的优势。此外,CogVLM2在推理时实际激活的参数量仅约120亿,这得益于其精心设计的多专家模块结构,显著提高了推理效率。

© 版权声明
THE END
喜欢就支持一下吧
点赞8 分享
评论 抢沙发
头像
欢迎您留下宝贵的见解!
提交
头像

昵称

取消
昵称表情代码图片

    暂无评论内容