从幻方到DeepSeek:梁文锋如何成为大模型“价格屠夫”

2024年5月15日,字节宣布其主力AI大模型的定价为输入0.0008元/千tokens(0.8元/百万tokens),当时称较行业便宜99.3%。

5月21日,阿里云宣布,通义千问对标ChatGPT-4的主力模型Qwen-Long,API输入价格从0.02元/千tokens(20元/百万tokens)降至0.0005元/千tokens(0.5元/百万tokens),直降97%。

百度随之公告,文心大模型的两款入门级主力模型ENIRE Speed、ENIRE Lite全面免费。

此前,智谱AI入门级产品GLM-3 Turbo模型的调用价格也从5元/百万tokens降至1元/百万tokens。

而引领这一趋势的事件,正是5月6日, DeepSeek发布全新第二代MoE模型DeepSeek-V2,并宣布自身的API定价为每百万tokens输入1元、输出2元,这一价格显著低于当前市场上的其他同类产品,仅为GPT-4-Turbo价格的近百分之一。

5月15日,DeepSeek完成备案正式开放服务,之后国内AI大模型公司纷纷加入大幅降价行列。

DeepSeek这家从未在市场融资的神秘大模型公司一跃成名。

IMG_256

IMG_257

成立背景和核心理念

DeepSeek(杭州深度求索人工智能基础技术研究有限公司,本文简称“DeepSeek”)由梁文锋创立,他在DeepSeek最终受益的股份比例超80%(根据天眼查数据)。

IMG_258

梁文锋是幻方量化的实际控制人,幻方量化是国内量化私募领域的巨头之一,管理规模曾一度飙升至千亿,现在管理规模依然在600亿元左右。

IMG_259

DeepSeek的创立,源于梁文峰在幻方量化时期即对AI的热衷。

2019年,其自研的深度学习训练平台「萤火一号」总投资近2亿元,搭载了1100块GPU;两年后,「萤火二号」的投入增加到10亿元,搭载了约1万张英伟达A100显卡。

背靠幻方,DeepSeek第一期研发投入即为幻方自主出资,同时有“萤火超算”万卡级别的算力支持,单从资金及硬件配置上,DeepSeek在初期远比国内大部分AI初创企业优渥。

使得DeepSeek是国内除了互联网大厂之外少有的能够拥有超过1万张英伟达A100显卡的人工智能公司。

(1)要原创不要模仿

随着经济发展,中国也要逐步成为贡献者,而不是一直搭便车。DeepSeek要以创新贡献者的身份,加入到游戏里去。

—— 梁文峰曾这样解释DeepSeek的初衷。

DeepSeek的中文翻译为“深度求索”,这反映了公司的定位与目标。

DeepSeek没有选择“1→10”而逆向选择了“0→1”,其提出了一种崭新的MLA(一种新的多头潜在注意力机制)架构,是DeepSeek对模型架构进行了全方位创新。

IMG_260

也正是这种独特架构,其把显存占用降到了过去最常用的MHA架构的5%-13%,同时,它独创的DeepSeekMoESparse结构,也把计算量降到极致,所有这些最终促成了成本的下降,宣布了行业震惊的定价方案,并引领了大模型降价潮。

(2)首要创新,暂不考虑商业化

梁文峰曾表示:

创新首先是一个信念问题。

DeepSeek是国内少数专注研究和技术的AI大模型公司,也是唯一一家未全面考虑商业化,甚至没有进行融资的公司。

DeepSeek希望形成一种生态,业界直接使用DeepSeek的技术和产出,DeepSeek只负责基础模型和前沿的创新,然后其它公司在DeepSeek的基础上构建toB、toC的业务。

(3)本土人才撑起研发

与其他AI企业执着地去海外挖人不同,DeepSeek热衷于自身培养。

DeepSeek的团队成员包括来自顶尖高校的应届毕业生、博四、博五实习生以及毕业几年的年轻人,他们对研究充满热情和好奇心。

梁文峰表示:“前50名顶尖人才可能不在中国,但也许我们能自己打造这样的人。”

IMG_261

团队构成与专业背景

(1)创始人——梁文锋

梁文锋,深度求索创始人、幻方量化创始人。

他本硕就读于浙江大学,攻读人工智能,念书时就笃定“AI定会改变世界”。

毕业后,梁文锋没有走程序员的既定路线,而是下场做量化投资,成立幻方量化。幻方量化成立仅6年管理规模即曾达到千亿,被称为“量化四大天王”之一。

(2)团队构成

OpenAI前政策主管、Anthropic联合创始人Jack Clark认为,DeepSeek“雇佣了一批高深莫测的奇才”。

DeepSeek的团队成员包括来自顶尖高校的应届毕业生、博四、博五实习生以及毕业几年的年轻人,但是具体是谁,我们不得而知。

IMG_262

模型介绍

立足于开源,DeepSeek认为先有一个强大的技术生态更重要。

在颠覆性的技术面前,闭源形成的护城河是短暂的。DeepSeek的护城河来自在研发过程中团队的成长及经验的积累。

目前DeepSeek的模型全部开源,包括通用大模型DeepSeek LLM、MoE模型DeepSeek MoE、DeepSeek V2、代码模型DeepSeek Coder、DeepSeek Coder V2、数学模型DeepSeek Math、多模态大模型DeepSeek VL。

IMG_263

DeepSeek 的 GitHub 页面

(1)MoE模型DeepSeek-V2

2024年1月,DeepSeek发布并开源国内首个MoE大模型 DeepSeekMoE。

2024年5月, DeepSeek发布并开源第二代MoE模型DeepSeek-V2。

DeepSeek-V2是一个混合专家 (MoE) 语言模型,具有训练经济、推理高效的特点。它包含 236B 总参数,其中每个 token 激活 21b,支持 128K tokens 的上下文长度。

IMG_264

DeepSeek-V2没有沿用主流的“类LLaMA的Dense结构”和“类Mistral的Sparse结构”,而是对模型框架进行了全方位的创新,提出了媲美MHA的MLA架构,大幅减少计算量和推理显存;自研Sparse结构DeepSeekMoE进一步将计算量降低到极致,两者结合最终实现模型性能跨级别的提升。

与 DeepSeek 67B 相比,DeepSeek-V2 实现了显著增强的性能,同时节省了 42.5% 的训练成本、减少了 93.3% 的 KV 缓存、并将最大生成吞吐量提升至 5.76 倍。

与发布时的模型对比,DeepSeek-V2均表现出色。

中文综合能力(AlignBench)开源模型中最强,与GPT-4-Turbo,文心4.0等闭源模型在评测中处于同一梯队。

英文综合能力(MT-Bench)与最强的开源模型LLaMA3-70B同处第一梯队,超过最强MoE开源模型Mixtral 8x22B。(根据DeepSeek发布同期披露评测数据)

IMG_265

在 LMSYS 盲测竞技场最新排名中,DeepSeek-V2总榜排名世界模型第17,排于其前面的仅有OpenAI、Anthropic、Google、META、NexusFlow、零一万物的大模型。

在Meta-Llama-3.1开源之前,DeepSeek-V2是全球开源模型第一位。

LMSYS 盲测竞技场总榜:

IMG_266

价格

DeepSeek-V2 API的定价为:每百万tokens输入1元、输出2元

最新启用了上下文硬盘缓存技术,把预计未来会重复使用的内容,缓存在分布式的硬盘阵列中。如果输入存在重复,则重复的部分只需要从缓存读取,无需计算。缓存命中的部分,DeepSeek 费用为 0.1元 每百万 tokens。

IMG_267

(2)通用大模型DeepSeek LLM

2023年11月,DeepSeek 发布并开源通用大语言模型DeepSeek LLM,是DeepSeek继DeepSeek Coder后发布的第二款模型。

同时开源 7B 和 67B 的两种规模模型,均含基础模型(base)和指令微调模型(chat)。

相比当时开源的同级别模型 LLaMA2 70B,DeepSeek LLM 67B 在近20个中英文的公开评测榜单上表现更佳。尤其突出的是推理、数学、编程等能力(如:HumanEval、MATH、CEval、CMMLU)。

(3)代码领域模型DeepSeek CoderV2

2023年11月,DeepSeek发布并开源他们首款模型,代码模型 DeepSeek-Coder。

2024年6月,DeepSeek发布并开源代码模型DeepSeek-Coder-V2。DeepSeek-Coder-V2包含236B与16B两种参数规模,对编程语言的支持从86种扩展到338种。

DeepSeek-Coder-V2 沿用 DeepSeek-V2 的模型结构,总参数 236B,激活 21B,发布时在代码、数学的多个榜单上位居全球第二,介于最强闭源模型 GPT-4o 和 GPT-4-Turbo 之间。(根据DeepSeek发布同期披露评测数据)

IMG_268

DeepSeek-Coder-V2 还具有良好的通用性能,发布时在中英通用能力上位列国内第一梯队。(根据DeepSeek发布同期披露评测数据)

IMG_269

(4)多模态大模型DeepSeek VL

2024年3月,DeepSeek发布并开源多模态大模型DeepSeek VL。同时开源 7B与1.3B的两种规模模型。

DeepSeek-VL 7B超越同规模(7B 参数)的 EMU2-Chat/Yi-VL 等模型,甚至超过更大规模(17B 参数)的 CogVLM

DeepSeek-VL在不丢失语言能力的情况下融入多模态能力,能够对绝大多数现实场景下的问题给出细致而有条理的回复。

IMG_270

能够接受大尺寸分辨率图片作为输入,高达1024×1024,识别图片中的细小物体。同时具备通用多模式理解能力,能够处理逻辑图、网页、公式识别、科学文献、自然图像,以及在复杂场景中体现智能。

IMG_271

小结

国内不少公司习惯于跟随海外科技公司,参考技术做应用变现。即使是互联网大厂在创新方面也较为谨慎,更加重视应用层面。

DeepSeek逆向而行,在这一波AI大模型的发展浪潮中展现出了更为积极进取的姿态。

DeepSeek不再满足于仅仅成为一个跟随者,而是选择站在技术创新的前端,从架构到模型参与整个AI大模型行业的进程,“要原创,要创新”。

在AI大模型架构层面,创新型提出了MLA架构,并取得了卓越的成绩。

我们非常认同DeepSeek创始人梁立峰关于“中国不可能永远只做模仿”的观点,我们期待DeepSeek在创新的道路上行稳致远,也期待更多的中国公司加入创新的行业。

© 版权声明
THE END
喜欢就支持一下吧
点赞7 分享
评论 抢沙发
头像
欢迎您留下宝贵的见解!
提交
头像

昵称

取消
昵称表情代码图片

    暂无评论内容