Deepseek退位,Minimax开源新王崛起,引领AI技术新篇章

MiniMax-Text-01和MiniMax-VL-01开源。

用到了线性注意力,所以在处理长输入的时候有非常高的效率,接近线性复杂度。支持4M上下文的大海捞针。

IMG_256

并且得益于新架构,所以推理更快,在其他模型处理256K tokens的时间,Minimax的模型可以处理高达1000k tokens的信息。

IMG_257

456B的模型,每次激活参数为45.9B,结构图如下:

IMG_258

效果对齐第一梯队。
IMG_259

长文有领先优势。
IMG_260

© 版权声明
THE END
喜欢就支持一下吧
点赞9 分享
评论 抢沙发
头像
欢迎您留下宝贵的见解!
提交
头像

昵称

取消
昵称表情代码图片

    暂无评论内容