智谱开源CogVLM2：新一代多模态大模型引领AI技术突破

智谱开源CogVLM2：新一代多模态大模型引领AI技术突破

11个月前更新

02038

u=4149201184,211667950&fm=30&app=106&f=JPEG
核心内容：智谱·AI最近宣布推出新一代多模态大模型CogVLM2，该模型在关键性能指标上相较于前一代CogVLM有了显著提升，同时支持8K文本长度和高达1344*1344分辨率的图像。CogVLM2在OCRbench基准上性能提升了32%，在TextVQA基准上性能提升了21.9%，显示出强大的文档图像理解能力。尽管CogVLM2的模型大小为19B，但其性能接近或超过了GPT-4V的水平。技术创新： CogVLM2的技术架构在上一代模型的基础上进行了优化，包括一个50亿参数的视觉编码器和一个70亿参数的视觉专家模块，这些模块通过独特的参数设置，精细地建模了视觉与语言序列的交互。这种深度融合策略使得视觉模态与语言模态能够更加紧密地结合，同时保持了模型在语言处理上的优势。此外，CogVLM2在推理时实际激活的参数量仅约120亿，这得益于其精心设计的多专家模块结构，显著提高了推理效率。

© 版权声明

THE END

喜欢就支持一下吧

相关推荐

评论抢沙发

欢迎您留下宝贵的见解！

提交

暂无评论内容