谷歌发布最强大模型Gemma，性能碾压Llama 2

刚刚，谷歌宣布推出了一款新的 AI 语言模型系列 —— Gemma。这个系列模型不仅免费、开源，而且采用了与谷歌更为强大的 Gemini 模型类似的技术。不同于 Gemini，Gemma 模型可以在个人电脑上本地运行，这是自 OpenAI 的 ChatGPT 在 2022 年引发 AI 聊天机器人热潮以来，谷歌首次发布的重要开源 LLM。

官网介绍：https://blog.google/technology/developers/gemma-open-models/

Gemma 系列提供两种规模的模型：Gemma 2B（含 20 亿参数）和 Gemma 7B（含 70 亿参数），它们各有预训练版和指令优化版。在 AI 领域，参数是决定模型行为的神经网络内的特定数值，而 “权重” 是这些参数的一部分，以文件形式存储。

Gemma 由谷歌 DeepMind 及其它谷歌 AI 团队联合开发，借鉴了在开发 Gemini 系列模型过程中获得的技术经验。Gemini 系列是谷歌目前最强大的商用 LLM，支持谷歌的 Gemini AI 助手。Gemma 源自拉丁语，是 “宝石” 的意思，象征其珍贵价值。

尽管 Gemma 是继 ChatGPT 发布后谷歌推出的第一个重要的开源 LLM（此前也发布过一些较小的研究模型，如 FLAN-T5），但谷歌在开放 AI 研究方面的贡献远不止于此。谷歌曾开发了 Transformer 架构，并推出了 TensorFlow、BERT、T5 和 JAX 等关键技术和工具，这些无疑对整个 AI 领域产生了深远影响。

直到最近，由于较小的开放权重 LLM 功能较弱且容易产生错误信息，它们更多被视为技术展示。然而，随着一些较大的模型开始达到与 GPT-3.5 相似的性能水平，专家们认为提供源代码和开放权重的 AI 模型是确保聊天机器人透明度和隐私的关键步骤。值得注意的是，尽管谷歌的 Gemma 提供了这些模型，但它并不是真正 “开源” 的，因为 “开源” 通常指的是几乎没有限制的特定软件许可类型。

实际上，Gemma 的推出似乎是谷歌为了与 Meta 竞争而做出的举措。自去年二月以来，Meta 通过发布开放权重模型（如 LLaMA 和 Llama 2）引起了广泛关注。这种做法与 OpenAI 的 GPT-4 Turbo 相反，GPT-4 Turbo 仅通过 ChatGPT 应用程序和云 API 提供，不能在本地运行。路透社的一份报告侧重于与 Meta 的竞争，并推测谷歌希望通过这一举措吸引更多开发者使用其 Vertex AI 云平台。

虽然我们还没有机会使用 Gemma，但谷歌声称其 7B 模型在多项基准测试中，包括数学、Python 代码生成、常规知识和常识性推理任务上，都超过了 Meta 的 Llama 2 的 7B 和 13B 模型。

Google 提供的 Gemma 性能图。谷歌表示，Gemma 在多项基准测试中均优于 Meta 的 Llama 2

有关性能、数据集组成和建模方法的详细信息，请参阅技术报告：

https://storage.googleapis.com/deepmind-media/gemma/gemma-report.pdf

用户可以通过以下方式使用 Gemma：

https://ai.google.dev/gemma/docs/get_started
https://www.kaggle.com/models/google/gemma/code
http://huggingface.co/google
https://github.com/google/maxtext
https://github.com/NVIDIA/GenerativeAIExamples/tree/main/models/Gemma

https://github.com/NVIDIA/TensorRT-LLM

与其他生成式 AI 模型一样，Gemma 能够理解并响应人类的自然语言指令，而不仅仅是传统的编程语言或命令。谷歌 Gemma 的训练资料来源于公开的信息资源，并且特别排除了包含个人可识别信息和被认为是 “敏感” 的内容，以保护用户隐私。

在技术优化方面，谷歌与 NVIDIA 展开了合作，特别是在 NVIDIA 的 TensorRT-LLM（一个专门为 LLM 推理设计的库）上实现了加速。这种合作使得 Gemma 能够更好地融入 NVIDIA 的产品生态，为使用者提供更快的处理速度和更高的效率。此外，Gemma 还可以在 NVIDIA AI 企业版中进行进一步的微调，这一点对于希望根据特定需求优化模型表现的开发者而言，是一个重要的优势。

目前看 Gemma 的竞争对手主要有 Meta 的开源 LLM Llama 2、Mistral AI 的 7B 模型、Deci 的 DecilLM 和 Microsoft 的 Phi-2 等小型生成式 AI 模型。

根据 Hugging Face 的排行榜，Gemma 在一系列预训练模型的评估中表现出众，这些评估涵盖了基本的事实问题、常识性推理和可信度等方面。在这个权威的排行榜上，只有作为参考基准的 Llama 2 70B 模型在得分上超过了 Gemma 7B。但是，Gemma 2B 的表现相比于其他小型开放 AI 模型则显得较为逊色。

根据苹果公司机器学习研究科学家 Awni Hannun 的分析，Gemma 在设计上非常注重高效性，特别适合在资源受限的环境下运行。

Hannun 指出，与其他类似模型相比，Gemma 拥有 250,000（250k）个词汇的庞大词库，远超过常见模型的 32k。这一庞大词库的优势在于，Gemma 能识别并处理更丰富多样的词汇，使其能够轻松应对包含复杂语言表达的任务。他分析认为，这一特点显著提升了模型处理不同内容类型的灵活性。他还相信，这对于数学、编程代码等多种不同领域的处理也大有裨益。

另一个引人注目的发现是，Gemma 的 “嵌入权重” 达到了惊人的 750 百万。嵌入权重是指那些帮助模型理解词汇含义及其相互关系的参数。值得关注的是，这些权重不仅在处理输入时发挥作用，还在模型产出文本时发挥重要角色。这种权重的共享使用方式显著提升了模型的效率，使其在生成文本时能更好地运用其对语言的深层理解。

对于最终用户来说，这意味着模型能够提供更准确、更相关且更符合语境的回答，从而在内容创作、聊天机器人和翻译应用中的表现更加出色。

Hannun 在 X 上这样写到：