首页 > Ai资讯 > Ai日报 > Llama3-V:500美元的成本构建的基于 Llama3 的多模态模型 性能与GPT-4V相当

Llama3-V:500美元的成本构建的基于 Llama3 的多模态模型 性能与GPT-4V相当

发布时间:2024年05月29日

Llama3-V 是基于 Llama3 的多模态模型,能够处理图像输入并生成对应的文本描述,适用于多种多模态任务。该模型以不到500美元的成本构建,性能比现有的开源多模态理解模型 LLaVA 高出10-20%,在多项指标上与规模大100倍的闭源模型(如 GPT-4V)表现相当。

模型架构

Llama3-V 的架构结合了视觉模型和语言模型,基于图像嵌入模型 (SigLIP)和Llama 3 8B模型。

Support authors and subscribe to content

This is premium stuff. Subscribe to read the entire article.

Subscribe

Gain access to all our Premium contents.
More than 100+ articles.

如果你想要了解关于智能工具类的内容,可以查看 智汇宝库,这是一个提供智能工具的网站。
在这你可以找到各种智能工具的相关信息,了解智能工具的用法以及最新动态。