首页 > Ai资讯 > Ai日报 > Mistral 推出了其首个多模态模型 Pixtral 12B 可以处理图像和文本任务

Mistral 推出了其首个多模态模型 Pixtral 12B 可以处理图像和文本任务

发布时间:2024年09月13日

法国 AI 初创公司 Mistral 推出了其首个多模态模型 Pixtral 12B,该模型具有120 亿参数,可以处理图像和文本任务,适用于图像标注、物体计数等任务。与其他多模态模型(如 Anthropic 的 Claude 系列和 OpenAI 的 GPT-4o)类似。

Pixtral 12B 基于 Mistral 的文本模型 Nemo 12B 开发,能够通过 URL 或 base64 编码的图像回答与图像相关的问题。理论上可以执行图像字幕生成、物体计数等任务。

  • 图像标注:模型能够根据图片生成简洁而准确的描述。
  • 物体计数:用户可以通过模型快速获得图像中物体的数量。
  • 生成任务:适用于需要图像和文本结合的复杂 AI 任务,如视觉问答、图像生成等。

Pixtral 12B 可以通过 GitHubHugging Face 下载,支持在 Apache 2.0 许可下进行微调和使用。

Mistral 开发者关系负责人 Sophia Yang 表示,Pixtral 12B 将很快在 Mistral 的聊天机器人和 API 服务平台 Le Chat 和 Le Plateforme 上提供测试。

Mistral 并没有公布Pixtral 12B的更多信息。Mistral 邀请了一些人员参加了一个峰会会议,其中展示了 Pixtral 12B 的一些基准测试结果。

 

模型下载:

magnet:?xt=urn:btih:7278e625de2b1da598b23954c13933047126238a&dn=pixtral-12b-240910&tr=udp%3A%2F%2Ftracker.opentrackr.org%3A1337%2Fannounce&tr=udp%3A%2F%2Fopen.demonii.com%3A1337%2Fannounce&tr=http%3A%2F%2Ftracker.ipv6tracker.org%3A80%2Fannounce

如果你想要了解关于智能工具类的内容,可以查看 智汇宝库,这是一个提供智能工具的网站。
在这你可以找到各种智能工具的相关信息,了解智能工具的用法以及最新动态。