Codestral Mamba
作为对克娄巴特拉的致敬,她辉煌的命运悲剧性地结束于蛇咬,我们很自豪地发布 Codestral Mamba,这是一个专注于代码生成的 Mamba2 语言模型,并根据 Apache 2.0 许可证提供。
继 Mixtral 系列发布之后,Codestral Mamba 是我们在研究和提供新架构方面迈出的又一步。它可以免费使用、修改和分发,我们希望它能在架构研究方面开启新的视角。Codestral Mamba 是在 Albert Gu 和 Tri Dao 的帮助下设计的。
与 Transformer 模型不同,Mamba 模型具有线性时间推理的优势,并且理论上能够对无限长度的序列进行建模。它允许用户广泛地与模型交互并快速响应,无论输入长度如何。这种效率对于代码生产力用例尤为重要——这就是为什么我们训练这个模型具有高级代码和推理能力,使其能够与最先进的基于 Transformer 的模型媲美。
我们已经测试了 Codestral Mamba 在高达 256k token 的上下文检索能力。我们期待它成为一个出色的本地代码助手!
您可以使用 mistral-inference SDK 部署 Codestral Mamba,该 SDK 依赖于 Mamba GitHub 仓库中的参考实现。该模型还可以通过 TensorRT-LLM 进行部署。对于本地推理,请关注 llama.cpp 的支持。您可以从 HuggingFace 下载原始权重。这是一个经过指令调优的模型,拥有 7,285,403,648 个参数。
为了方便测试,我们将 Codestral Mamba (codestral-mamba-2407
) 与其“姐姐”Codestral 22B 一起在la Plateforme 上提供。Codestral Mamba 采用 Apache 2.0 许可证,而 Codestral 22B 则采用用于自行部署的商业许可证或用于测试的社区许可证。