专家级Mixtral
一款高质量的稀疏专家混合模型。
Mistral AI 继续履行其使命,为开发者社区提供最优秀的开源模型。推动人工智能向前发展,不仅需要重用已知的架构和训练范式,还需要采取新的技术路线。最重要的是,它需要让社区从原创模型中受益,以促进新的发明和应用。
今天,团队自豪地发布 Mixtral 8x7B,这是一款高质量的稀疏专家混合模型 (SMoE),其权重已开源。该模型基于 Apache 2.0 许可。Mixtral 在大多数基准测试中优于 Llama 2 70B,且推理速度快 6 倍。它是拥有宽松许可的最强大的开源权重模型,也是在成本/性能权衡方面总体表现最佳的模型。尤其是在大多数标准基准测试中,它与 GPT3.5 持平或表现更佳。
Mixtral 具备以下能力。
- 它能优雅地处理 32k 的上下文窗口。
- 它支持英语、法语、意大利语、德语和西班牙语。
- 它在代码生成方面表现出色。
- 它可以微调成一个遵循指令的模型,并在 MT-Bench 上达到 8.3 分。
利用稀疏架构推动开源模型的边界
Mixtral 是一种稀疏专家混合网络。它是一个仅解码器模型,其前馈块从 8 组不同的参数中进行选择。在每一层,对于每个 token,路由器网络会选择其中两组(“专家”)来处理该 token 并将其输出相加。
这项技术在控制成本和延迟的同时增加了模型的参数数量,因为模型每处理一个 token 只使用总参数集的一小部分。具体来说,Mixtral 总共有 467 亿参数,但每个 token 只使用 129 亿参数。因此,它处理输入和生成输出的速度和成本与 129 亿参数的模型相同。
Mixtral 使用从开放网络中提取的数据进行预训练——我们同时训练专家和路由器。
性能
我们将 Mixtral 与 Llama 2 系列和 GPT3.5 基础模型进行比较。Mixtral 在大多数基准测试中与 Llama 2 70B 以及 GPT3.5 持平或表现更佳。
在下图所示,我们衡量了质量与推理预算的权衡。与 Llama 2 模型相比,Mistral 7B 和 Mixtral 8x7B 属于高效的模型系列。
下表提供了上图的详细结果。
幻觉和偏差。 为了识别可通过微调/偏好建模纠正的潜在缺陷,我们在 BBQ/BOLD 上衡量了*基础*模型的性能。
与 Llama 2 相比,Mixtral 在 BBQ 基准测试上表现出更少的偏差。总体而言,Mixtral 在 BOLD 上表现出比 Llama 2 更积极的情绪,并且在每个维度上具有相似的方差。
语言。 Mixtral 8x7B 精通法语、德语、西班牙语、意大利语和英语。
指令遵循模型
我们发布了 Mixtral 8x7B Instruct 模型,与 Mixtral 8x7B 同步推出。该模型通过监督微调和直接偏好优化 (DPO) 进行了优化,以实现谨慎的指令遵循。在 MT-Bench 上,它达到了 8.30 分,成为性能可与 GPT3.5 媲美的最佳开源模型。
注意:Mixtral 可以通过巧妙的提示来禁止某些输出,以构建需要高度内容审核的应用,例如此处所示。适当的偏好微调也能达到此目的。请记住,如果没有此类提示,模型将仅遵循给定的任何指令。
使用开源部署堆栈部署 Mixtral
为了让社区能够使用完整的开源堆栈运行 Mixtral,我们已向 vLLM 项目提交了更改,该项目集成了 Megablocks CUDA 内核以实现高效推理。
Skypilot 允许在云中的任何实例上部署 vLLM 端点。
在我们的平台使用 Mixtral。
我们目前在 *mistral-small* 端点背后使用 Mixtral 8x7B,该端点处于测试阶段。立即注册以抢先体验所有生成和嵌入端点。
致谢
我们感谢 CoreWeave 和 Scaleway 团队在模型训练期间提供的技术支持。