法国 AI 初创公司 Mistral 推出了其首个多模态模型 Pixtral 12B,该模型具有120 亿参数,可以处理图像和文本任务,适用于图像标注、物体计数等任务。与其他多模态模型(如 Anthropic 的 Claude 系列和 OpenAI 的 GPT-4o)类似。
Pixtral 12B 基于 Mistral 的文本模型 Nemo 12B 开发,能够通过 URL 或 base64 编码的图像回答与图像相关的问题。理论上可以执行图像字幕生成、物体计数等任务。
- 图像标注:模型能够根据图片生成简洁而准确的描述。
- 物体计数:用户可以通过模型快速获得图像中物体的数量。
- 生成任务:适用于需要图像和文本结合的复杂 AI 任务,如视觉问答、图像生成等。
Pixtral 12B 可以通过 GitHub 和 Hugging Face 下载,支持在 Apache 2.0 许可下进行微调和使用。
Mistral 开发者关系负责人 Sophia Yang 表示,Pixtral 12B 将很快在 Mistral 的聊天机器人和 API 服务平台 Le Chat 和 Le Plateforme 上提供测试。
Mistral 并没有公布Pixtral 12B的更多信息。Mistral 邀请了一些人员参加了一个峰会会议,其中展示了 Pixtral 12B 的一些基准测试结果。
模型下载:
magnet:?xt=urn:btih:7278e625de2b1da598b23954c13933047126238a&dn=pixtral-12b-240910&tr=udp%3A%2F% 2Ftracker.opentrackr.org%3A1337%2Fannounce&tr=udp%3A%2F% 2Fopen.demonii.com%3A1337%2Fannounce&tr=http%3A%2F% 2Ftracker.ipv6tracker.org%3A80%2Fannounce
WordAI是一款人工智能驱动的文本重写和自动摘要工具。