Codestral Mamba

作为对克娄巴特拉的致敬，她辉煌的命运悲剧性地结束于蛇咬，我们很自豪地发布 Codestral Mamba，这是一个专注于代码生成的 Mamba2 语言模型，并根据 Apache 2.0 许可证提供。

研究

2024年7月16日Mistral AI 团队

继 Mixtral 系列发布之后，Codestral Mamba 是我们在研究和提供新架构方面迈出的又一步。它可以免费使用、修改和分发，我们希望它能在架构研究方面开启新的视角。Codestral Mamba 是在 Albert Gu 和 Tri Dao 的帮助下设计的。

与 Transformer 模型不同，Mamba 模型具有线性时间推理的优势，并且理论上能够对无限长度的序列进行建模。它允许用户广泛地与模型交互并快速响应，无论输入长度如何。这种效率对于代码生产力用例尤为重要——这就是为什么我们训练这个模型具有高级代码和推理能力，使其能够与最先进的基于 Transformer 的模型媲美。

我们已经测试了 Codestral Mamba 在高达 256k token 的上下文检索能力。我们期待它成为一个出色的本地代码助手！

您可以使用 mistral-inference SDK 部署 Codestral Mamba，该 SDK 依赖于 Mamba GitHub 仓库中的参考实现。该模型还可以通过 TensorRT-LLM 进行部署。对于本地推理，请关注 llama.cpp 的支持。您可以从 HuggingFace 下载原始权重。这是一个经过指令调优的模型，拥有 7,285,403,648 个参数。

为了方便测试，我们将 Codestral Mamba (codestral-mamba-2407) 与其“姐姐”Codestral 22B 一起在la Plateforme 上提供。Codestral Mamba 采用 Apache 2.0 许可证，而 Codestral 22B 则采用用于自行部署的商业许可证或用于测试的社区许可证。

Codestral Mamba

AI 的下一篇章由您开启。