Llama3-V 是基于 Llama3 的多模态模型,能够处理图像输入并生成对应的文本描述,适用于多种多模态任务。该模型以不到500美元的成本构建,性能比现有的开源多模态理解模型 LLaVA 高出10-20%,在多项指标上与规模大100倍的闭源模型(如 GPT-4V)表现相当。
模型架构
Llama3-V 的架构结合了视觉模型和语言模型,基于图像嵌入模型 (SigLIP)和Llama 3 8B模型。
Support authors and subscribe to content
This is premium stuff. Subscribe to read the entire article.
Login if you have purchased
BusinessAI智能助手是一款创新的在线工具,提供与人工智能的无缝对话体验。 无须繁琐魔法,支持中文输入!支持GPT4.0,网站提供AI对话、 AI创作、 AI绘画、AI PPT四种模式!