OpenBuddy开源千亿中文MoE模型:140B参数,引领AI创新潮流

我们很自豪地于今天发布OpenBuddy最新一代千亿MoE大模型的早期预览版本:OpenBuddy-Mixtral-22Bx8-preview0-65k。此次发布的早期预览版对应约50%的训练进度。

这个模型为业界是首个规模高达22Bx8(约1400亿参数)、原生支持65K上下文的开源中文MoE跨语言模型,模型不仅具备卓越的中英理解能力,还支持日、韩、法、德等多种语言的跨语言任务。

IMG_256

Mixtral 8x22B: 开源MoE大模型的GPT-4时刻

近期,业界领先的知名AI初创公司Mistral AI发布了Mixtral 8x22B开源模型基座。

Mistral AI的开源模型历来以超出同尺寸模型的认知能力和知识储备而闻名。此次Mixtral 8x22B模型,一经发布即成为了开源MoE模型的最新标杆。

作为Mistral的投资方之一,Microsoft于近日发布了WizardLM-2-8x22B:一个基于Mixtral 8x22B基座进一步微调的英文对话模型。

在评估英文多轮对话能力的MT-Bench上,WizardLM-2-8x22B取得了和Claude 3 Sonnet接近的评测结果,代表开源MoE大模型正在接近其GPT-4时刻。

IMG_257

尽管离最新的GPT-4-Turbo、Claude 3 Opus等头部闭源模型仍存在差距,但WizardLM-2-8x22B的成绩已经优于早期的0314版GPT-4,随着开源社区模型训练、微调技术的不断精进,开源社区中有希望涌现出英文能力接近并超越GPT-4的模型。

跨语言认知能力:OpenBuddy的专注领域



Mixtral/WizardLM 8x22B对中、日、韩等东亚语言的支持能力仍然存在局限性。模型的词表中只包含极少数的汉字,且模型本身的中文知识储备也相当有限。

作为致力于提供跨语言、强认知模型的开源社区,OpenBuddy在模型的跨语言能力上具备丰富的经验。此次训练过程中,我们首先对模型词表进行了增强:增加了共计约17000个CJK字符、中文常用词组。

结合我们在多次训练7Bx8 MoE模型过程中积累的经验,模型在我们针对MoE定制的跨语言训练方案下,很快适应了新的词表,并习得了跨语言翻译等语言能力。

Q: 将下面文字分别翻译成英语,日语,韩语,俄语,阿拉伯语:猫喜欢吃鱼,所以它们会游泳A: 英语翻译:Cats like to eat fish, so they can swim.日语翻译:猫は魚を食べるのが好きですから、泳ぐことができます。韩语翻译:고양이는 물고기를 좋아해서 수영을 할 수 있습니다.俄语翻译:Кошки любят есть рыбу, поэтому они умеют плавать.阿拉伯语翻译:القطط تحب تأكل السمك، لذا فهي تستطيع السباحة.

在此基础之上,我们进行了旨在增强模型的认知、推理、语言理解能力的微调过程。在本次发布的模型预览版本中。当我们使用“弱智吧”等带有语言陷阱的题目测试时,模型能给出清晰而准确的理解,展现出接近GPT-4等级的认知能力。

Q: 分析这个观点:我发现了最准确的光速计算方法,1光年/1年 就能准确计算出光速

A: 这个观点提出了一种计算光速的方法,即使用 1 光年 /1 年来表示光速。首先,我们需要了解几个基本概念:

1. 光年(light-year):光年是衡量宇宙距离的单位,它表示光在真空中在一年内所行进的距离。由于光速是恒定的,所以光年也可以看作是光速的一种表达方式。

2. 光速(speed of light):在真空中,光速是一个物理常数,通常用符号 c 表示,其值约为 299,792,458 米 / 秒(大约 3.00 x 10^8 m/s)。

现在,让我们分析这个观点:

– 如果我们说 1 光年 /1 年,实际上是在说光在一年内能够行进 1 光年。由于光年本身就是基于光速定义的,所以这个表达方式本质上是在重复定义光速。换句话说,它并没有提供一个新的计算方法,而是在用一个已经依赖于光速定义的单位来描述光速。

– 从逻辑上讲,这个观点没有提供任何新的信息或计算方法,因为它本质上是在用光速来定义光速。这就像是说“1 米 /1 秒”来描述光速,这并没有提供一个独立的测量或计算方法。

– 在实际应用中,科学家们使用的是光速的精确数值来进行计算,而不是使用光年这个单位。光年主要用于天文学中描述星系和星体之间的巨大距离,而不是用来计算光速。

综上所述,这个观点并没有提供一个新的或更准确的光速计算方法,它只是用一个基于光速定义的单位来描述光速本身。在科学研究和工程应用中,我们通常使用光速的精确数值来进行计算和测量。

Q: 兔子追乌龟,距离100米,假如在兔子跑了100米这段时间,乌龟爬了10米。兔子继续追这10米,乌龟又爬了1米。以此类推,无论兔子追了多少米,一段时间内,乌龟都会往前爬一段距离。这么说兔子是否永远无法追上乌龟?A: 这个问题是古希腊哲学家芝诺(Zeno)的悖论之一,被称为“阿基里斯与乌龟”悖论。在这个悖论中,阿基里斯(代表兔子)永远追不上乌龟,因为每次他到达乌龟之前的位置时,乌龟都会前进一段新的距离。然而,这个悖论忽略了时间的连续性和速度的概念。在现实世界中,如果兔子比乌龟快,那么它最终会追上乌龟。这是因为兔子和乌龟的相对速度是恒定的,而时间是连续的。随着时间的推移,兔子会逐渐缩小与乌龟之间的距离,直到最终追上乌龟。从数学的角度来看,这个过程可以用无穷级数来描述。兔子追上乌龟的过程可以看作是一个无限序列的和,其中每一项代表兔子在特定时间段内追上的距离。尽管这个序列无限,但它的和是有限的,因为每一项的值都在减少,并且趋向于零。因此,这个无穷级数是收敛的,意味着兔子最终会追上乌龟。所以,虽然这个悖论在逻辑上看似合理,但实际上它忽略了时间和速度的连续性,因此在现实世界中,兔子是可以追上乌龟的。

65K原生上下文:长文理解潜力巨大

在训练模型的早期过程中,我们针对性地提升了模型的长文理解能力。基座模型的原生上下文长度高达65K,远超过此前开源模型普遍存在的4K到32K不等的限制。得益于基座的长文能力,经过OpenBuddy的长文能力增强训练流程后,模型的无损长文理解能力得到了进一步的优化,在长文本概要总结、问答等场景下性能卓越。借助RoPE-Scaling模型上下文倍增、FP8 KV-Cache压缩等技术,模型具备挑战128K级别长文任务的潜力。

未来展望:正式版模型、3090 4卡量化部署

欢迎点击“阅读原文”访问ModelScope平台,体验模型的高速下载和快速部署。同时,我们在模型中提供了Evaluation.txt评测文件,包含了模型在通用问答、代码和长文理解等任务上原始输出结果。模型基于Apache 2.0协议发布,无需许可即可商用。

目前提供的早期预览版对应约50%的训练进度,尽管在早期预览版模型已经展现出了强认知潜力,但模型仍然在中文内容创作、文言文、传统文化、指令精确遵循等领域上存在“欠拟合”的问题,在此类场景中可能输出质量不及预期的结果。模型的完整权重所需显存高达280GB,建议在4卡A800环境下部署。

当前,我们仍在继续推进正式版模型的训练过程,并同时开展模型量化部署的早期探索。在4-Bit量化级别下,模型体积有望能压缩至80GB以下,使3090 4卡环境部署成为可能。

正式版和量化模型预计在5月上旬推出,敬请期待。同时也欢迎关注、下载我们提供的Mistral2-7B、Qwen1.5-32B等中小尺寸跨语言模型系列。

© 版权声明
THE END
喜欢就支持一下吧
点赞8 分享
评论 抢沙发
头像
欢迎您留下宝贵的见解!
提交
头像

昵称

取消
昵称表情代码图片

    暂无评论内容