Mistral 内容审核 API
我们正在推出新的内容审核服务,使用户能够根据多个政策维度检测不良文本内容。
研究
2024年11月7日Mistral AI 团队
安全在使 AI 变得有用方面起着关键作用。在 Mistral AI,我们认为系统级安全防护对于保护下游部署至关重要。这就是为什么我们发布了新的内容审核 API。它是为 Le Chat 中的内容审核服务提供支持的同一 API。我们推出它,是为了让我们的用户能够利用并根据其特定应用和安全标准定制这个工具。
在过去几个月里,我们看到业界和研究界对基于新型 LLM 的内容审核系统越来越热情,这些系统有助于使跨应用的内容审核更具可扩展性和鲁棒性。我们的模型是一个 LLM 分类器,经过训练可以将文本输入分类到下面定义的 9 个类别中。我们正在发布两个端点:一个用于原始文本,一个用于对话内容。不良内容与特定上下文高度相关,因此我们训练模型以在对话上下文中对对话的最后一条消息进行分类。查看我们的技术文档以获取更多信息。该模型天生支持多语言,尤其在阿拉伯语、中文、英语、法语、德语、意大利语、日语、韩语、葡萄牙语、俄语、西班牙语上进行了训练。
内容审核分类器利用最相关的政策类别来实现有效的安全防护,并通过解决模型生成的危害(例如不合格的建议和 PII)引入了一种务实的 LLM 安全方法。完整的政策定义以及如何开始的详细信息可在我们的技术文档中找到。
性能
我们在下面分享了在我们的内部测试集上按政策划分的 AUC PR。
我们正在与客户合作,构建并分享可扩展、轻量级且可定制的内容审核工具,并将继续与研究界互动,为更广泛的领域贡献安全方面的进展。