NVIDIA 推出的 AI Blueprint , 这是一套用于构建视觉AI代理的框架,帮助开发者构建视频理解和摘要功能的解决方案。
AI Blueprint利用生成式AI、视觉语言模型(VLM)和大语言模型(LLM)实现对长视频的搜索、问答和实时事件检测等功能。
通过这个 Blueprint,用户可以轻松构建视频搜索和摘要智能体,利用 AI 技术生成对超长视频内容的概述、回答问题以及检测实时事件。
如何实现视频摘要:
- 视频分段:Blueprint 将长视频自动分成小片段,确保每个片段都能准确捕捉到关键内容。
- 片段分析:每个片段会由视觉语言模型进行分析,生成详细的文字描述或标签,记录视频中的事件、物体和动作。
- 内容汇总:这些片段描述随后会通过大语言模型汇总,去除重复信息,生成一个全面而简洁的摘要。
适用场景:
视频播放器
比如,你有几个小时的监控视频或会议录像,Blueprint 可以帮助快速总结其中的主要事件、关键对话和重要时刻,而不需要你逐帧观看。
这使得 Blueprint 特别适合用于需要监控和回顾长时间视频的场景,如安全监控、教育视频回顾和客户服务记录等。
主要功能介绍
- 视频摘要生成:
- 上传视频后,系统自动生成内容摘要。用户可以使用自定义的提示语,告诉系统需要关注哪些对象、事件或动作,从而生成更加精确的摘要。
- 配置选项包括:
- 片段长度(chunk duration):视频分割的每段长度。片段越小,描述越精细,但处理时间会增加。
- 片段重叠(chunk overlap):增加片段之间的重叠区域,以确保视频中的重要事件不会被遗漏。
- 互动式问答:
- 系统会构建一个知识图谱,可以支持用户在视频分析完成后进行自然语言问答。例如,用户可以询问“某物体什么时候出现在画面中?”系统会基于知识图谱提供答案。
- 这个功能使得用户无需逐帧浏览视频,便可快速找到关键信息。
- 实时流媒体监控与警报:
- 在处理实时视频流时,系统允许用户设置警报规则。例如,可以设置摄像头监控森林区域,并在检测到动物或火灾时发出警报。
- 用户可以用自然语言定义警报条件,系统实时监控视频流,一旦满足条件便会发送通知。
NVIDIA AI Blueprint 的核心组件
- 视频流处理器(Stream Handler):
- 将长视频或实时视频分割为较小的片段,每个片段的长度可配置。
- 使用 NVIDIA 的 VLM(视觉语言模型)分析每个视频片段并生成高密度的描述。这一过程通过 GPU 加速,提升了处理效率。
- 视觉语言模型(VLM)与 CA-RAG 模块:
- VLM 管道:VLM 用于处理视频片段,生成关于每个片段的详细描述。这个过程包含对视频帧的采样、解码和描述生成。
- CA-RAG(上下文感知检索增强生成):将所有片段描述聚合成一个完整的摘要。CA-RAG 帮助提升摘要的准确性,使整个视频的内容更加连贯和完整。
- 知识图谱与 Graph-RAG 模块:
- 知识图谱会将视频内容中的信息转化为“节点”和“边”的形式,存储在图数据库中。
- 通过 Graph-RAG 技术,智能体可以理解视频中复杂的事件关系,使问答和实时检测更加准确。例如,系统可以追踪视频中的某一物体或事件的完整发展过程。
工作流程概览
简单来说,Blueprint 将长视频分成多个小片段,通过视觉语言模型(VLM)逐一分析片段内容,再由大语言模型(LLM)将这些片段的描述汇总成简明扼要的总结。
- 视频处理与分析:
- 系统首先将视频文件或实时视频流分成多个小片段,每个片段会独立处理,生成密集描述(例如,场景中的物体、人物或事件等)。
- 对于长视频,系统采用滑动窗口的方式,确保每个片段都覆盖到关键内容。
- 数据聚合与摘要生成:
- 在片段分析完成后,CA-RAG 模块将所有片段的描述整合生成一个总结,确保视频摘要连贯准确。
- 用户可以选择合适的摘要长度和细节级别,根据需求调整摘要的精细程度。
- 知识图谱构建:
- 系统将视频描述信息以节点和边的形式存储在图数据库中,建立知识图谱。这种结构化信息可以帮助系统进行复杂问答和关系追踪。
- Graph-RAG 模块允许系统在用户提出问题时查询知识图谱,为互动式问答提供准确答案。
应用场景和优势
- 工业监控:在工厂、仓库等场景中,NVIDIA AI Blueprint 可帮助监控设备状态,检测潜在风险。
- 交通监控:在交通枢纽或交叉路口,系统可以检测异常事件,帮助管理交通流量。
- 安全监控:在安保场景下,系统可以监测实时视频流,及时发出安全警报,提升安防能力。
开发者支持与集成方式
NVIDIA AI Blueprint 提供 REST API,可以轻松集成到现有应用中。API 支持摘要、问答、实时警报等功能,用户可以根据需求进行配置。参考 UI 也提供快速实验环境,便于开发者调整各项配置。
总体而言,NVIDIA AI Blueprint 通过整合 VLM、LLM 和知识图谱技术,帮助企业用户高效提取视频中的关键信息,在多个行业中实现更智能的视频分析和自动化监控。
在线体验:https://build.nvidia.com/nvidia/video-search-and-summarization
飞桨(PaddlePaddle)以百度多年的深度学习技术研究和业务应用为基础,集深度学习核心训练和推理框架、基础模型库、端到端开发套件、丰富的工具组件于一体,是中国首个自主研发、功能丰富、开源开放的产业级深度学习平台。