Video-MME: 首个多模态大模型视频分析综合评估基准

Video-MME（Multi-Modal Evaluation benchmark）是首个专门为评估多模态大语言模型（MLLMs）在视频分析中的表现而设计的综合评估基准。该基准由来自多个大学和研究机构的研究人员共同开发，旨在通过多样化和高质量的数据集，全面考察MLLMs在处理视频数据时的能力。

与现有基准相比，Video-MME有四个关键特性

视频类型的多样性：
- 涵盖领域：视频数据集涵盖6个主要视觉领域，包括知识、电影与电视、体育竞技、艺术表演、生活记录和多语言。
- 子领域细分：每个领域进一步细分为30个子类别，如天文学、科技、纪录片、新闻报道、电竞、魔术表演和时尚等，确保广泛的场景适用性。
时间维度的持续性：
- 视频长度：视频长度从短视频（11秒）到长视频（1小时）不等，评估模型在不同时间上下文中的适应性和处理能力。
- 多层次评估：通过短、中、长视频（分别为<2分钟、4-15分钟、30-60分钟）来全面考察MLLMs在不同时间尺度上的表现。
数据模态的广泛性：
- 多模态输入：除了视频帧，还整合了字幕和音频等多模态输入，以全面揭示MLLMs的理解和处理能力。
- 多模态评估：通过同时评估视觉、听觉和文本信息，全面考察模型的多模态理解能力。
高质量注释：
- 手动标注：由专家多次观看视频并进行严格的手动标注，确保数据集的高质量和准确性。
- 问答对：每个视频配有3个高质量的多项选择问题，总计2,700对问答对，涵盖感知、推理和信息总结等任务类型。

数据集构建

视频收集：定义6个关键领域和30个细分视频类别，从YouTube收集900个视频，确保视频长度的多样性，包括短（<2分钟）、中（4-15分钟）和长视频（30-60分钟）。
问答注释：每个视频注释3个高质量的多项选择问题，总计2,700对问答对。
质量审核：进行严格的手动审核，确保问题表达正确且明确，并能有效评估模型。

Video-MME评估了多种先进的MLLMs，包括GPT-4系列、Gemini 1.5 Pro，以及开源图像模型（如InternVL-Chat-V1.5）和视频模型（如LLaVA-NeXT-Video）。

总体准确率：
- Gemini 1.5 Pro：75.7%
- GPT-4o：66.2%
- GPT-4V：60.7%
- LLaVA-NeXT-Video：52.5%
- InternVL-Chat-V1.5：51.5%
视频时长对比：
- 短视频（< 2分钟）：Gemini 1.5 Pro 表现最好，达84.4%（带字幕）。
- 中等视频（4-15分钟）：Gemini 1.5 Pro 表现最好，达82.3%（带字幕）。
- 长视频（30-60分钟）：Gemini 1.5 Pro 表现最好，达76.0%（带字幕）。

商业模型：
- Gemini 1.5 Pro：表现最佳，平均准确率为75.7%，特别是在短视频（<2分钟）上的准确率为82.3%。
- GPT-4V和GPT-4o分别以63.7%和65.8%的准确率位列其后。
开源模型：
- LLaVA-NeXT-Video：开源模型中表现最好，准确率为52.5%。
- 其他开源模型如Video-LLaVA和Chat-UniVi-V1.5的准确率分别为42.3%和46.3%。
图像模型：
- Qwen-VL-Max和InternVL-Chat-V1.5的表现接近视频特定模型LLaVA-NeXT-Video，分别达到51.7%和53.2%的准确率。