首页 > Ai资讯 > Ai日报 > Google推出开源视觉语言模型:PaliGemma 支持图像视频等多种视觉语言任务

Google推出开源视觉语言模型:PaliGemma 支持图像视频等多种视觉语言任务

发布时间:2024年05月18日

PaliGemma是一个开放的视觉语言模型(VLM),受PaLI-3启发,基于SigLIP视觉模型和Gemma语言模型构建。PaliGemma设计为一个多功能模型,适用于多种视觉语言任务,支持图像和短视频字幕、视觉问答、图像文本理解、物体检测和分割等任务。

PaliGemma 模型包含 30 亿(3B)个参数,结合了 SigLiP 视觉编码器和 Gemma 语言模型。SigLiP 负责处理图像输入,Gemma 负责处理文本输入和生成输出。

Support authors and subscribe to content

This is premium stuff. Subscribe to read the entire article.

Subscribe

Gain access to all our Premium contents.
More than 100+ articles.

如果你想要了解关于智能工具类的内容,可以查看 智汇宝库,这是一个提供智能工具的网站。
在这你可以找到各种智能工具的相关信息,了解智能工具的用法以及最新动态。