PaliGemma是一个开放的视觉语言模型(VLM),受PaLI-3启发,基于SigLIP视觉模型和Gemma语言模型构建。PaliGemma设计为一个多功能模型,适用于多种视觉语言任务,支持图像和短视频字幕、视觉问答、图像文本理解、物体检测和分割等任务。
PaliGemma 模型包含 30 亿(3B)个参数,结合了 SigLiP 视觉编码器和 Gemma 语言模型。SigLiP 负责处理图像输入,Gemma 负责处理文本输入和生成输出。
Support authors and subscribe to content
This is premium stuff. Subscribe to read the entire article.
Login if you have purchased
面向开发者的智能助手,致力于打造现代发展新范式。通过将自然语言转化为编程语言,提高开发人员的编码效率,帮助企业快速应对市场不确定性。