首页 > Ai资讯 > Ai日报 > Meta AI 推出新一代SAM 2 可实时在图像或视频中识别出特定对象并进行跟踪

Meta AI 推出新一代SAM 2 可实时在图像或视频中识别出特定对象并进行跟踪

发布时间:2024年07月30日

Meta AI 宣布推出新一代的Segment Anything Model (SAM) 2,能够在视频和图像中实现实时的可提示对象分割。

SAM 2可以快速、精确地在任何视频或图像中选择对象。它不仅能在图像中分割对象,还能在视频中追踪对象,即使这些对象在训练时从未见过。该模型支持实时互动,非常适合各种实际应用,比如视频编辑和互动式媒体内容制作。

  • 对象分割
    • 它可以在图像或视频中识别出一个特定对象,并将该对象的像素与背景区分开来。例如,在一张包含多个物体的图片中,模型可以准确地找出并标记出某一个物体的轮廓。
  • 实时性
    • 模型能够在视频播放的过程中快速处理每一帧,立即识别并分割、跟踪出特定对象。这样可以实现如视频编辑、特效制作等需要快速反馈的应用。
  • 可提示
    • 是模型可以根据用户提供的提示(如点击某个物体、框选某个区域等)来进行分割。这种交互方式使得用户可以更精确地控制哪些对象需要被分割。

功能特点:

  1. 统一的图像和视频分割模型
  2. 实时对象分割
  3. 可提示对象分割
    • SAM 2支持用户通过提示(如点击、框选等)来指定要分割的对象。这种交互方式使得用户可以更精确地控制分割过程,提升分割结果的准确性。
  4. 零样本泛化能力
  5. 多对象选择和调整
  6. 视频追踪能力
  7. 高效的人机交互
    • SAM 2在视频分割任务中需要的交互时间约为之前模型的三分之一,大大提高了效率。这在需要大量数据标注的任务中尤为重要,能够显著减少人工标注时间。
  8. 先进的内存机制
    • SAM 2引入了内存编码器、内存库和内存注意模块,这些组件允许模型记住之前处理过的信息,使得在视频分割过程中能够保持对象的一致性和准确性。
  9. 开放源码和数据集
    • Meta公司开源了SAM 2的代码和模型权重,并提供了包含约51,000个视频和超过600,000个时空掩码的SA-V数据集。这些资源在Apache 2.0和CC BY 4.0许可证下开放,供研究社区和开发者使用。

模型性能

  1. 高精度的图像和视频分割
    • SAM 2在图像分割的准确性上超过了之前的版本,并且在视频分割性能上也优于现有的模型。这使得它能够在各种复杂的视觉场景中保持高精度的分割结果。
  2. 实时推理速度
    • SAM 2的推理速度大约为每秒44帧,确保了在实际应用中能够实时处理视频数据。这对于需要快速反馈的应用场景,如视频编辑和实时监控,尤为重要。
  3. 减少交互时间
    • SAM 2需要的人工交互时间大约是之前模型的三分之一。这显著提高了标注效率,特别是在需要大量数据注释的任务中,可以大幅减少人工标注的工作量。
  4. 零样本泛化能力
    • SAM 2具备强大的零样本泛化能力,能够在没有特定训练数据的情况下处理未见过的对象和视觉域。这意味着它可以在各种新的视觉内容中表现出色,而无需进行额外的模型训练或调整。
  5. 多数据集表现优异
    • SAM 2在17个零样本视频数据集上显著优于之前的交互视频分割方法,并且在人机交互次数上减少了约三倍。
    • 在23个图像数据集的零样本基准测试中,SAM 2的性能也显著超过了SAM,同时处理速度提高了六倍。
  6. 先进的模型架构
    • SAM 2引入了内存机制,包括内存编码器、内存库和内存注意模块,这些组件使得模型能够记住之前处理的信息,从而在视频分割过程中保持一致性和准确性。
  7. 公平性评估
    • 对于模型的公平性评估显示,SAM 2在不同性别和年龄组的性能差异最小,确保了模型在各种人口统计学特征中的表现一致。
  8. 改进的对象跟踪
    • SAM 2在视频中能够准确跟踪对象,避免了过度分割的问题。例如,在跟踪一个人穿的T恤时,SAM 2能够保持对T恤的准确跟踪,而不会错误地包括人的头部。

性能指标

  • 视频帧处理速度:44帧每秒
  • 交互时间减少:交互时间减少至原来的三分之一
  • 人机交互效率:在视频分割注释中,SAM 2比手动每帧注释快8.4倍
  • 模型公平性:在不同性别和年龄组中的性能差异最小

模型开发

1. 任务设计

可提示的视觉分割任务

  • 任务定义:扩展图像分割任务到视频分割。图像分割是识别图像中目标对象的像素,视频分割则是识别并追踪视频中目标对象的像素变化。
  • 提示输入:SAM 2 能接受多种提示形式,如点、框或掩码。这些提示帮助模型在图像或视频帧中定义目标对象。
  • 时空掩码(Masklet):在视频分割中,模型不仅在当前帧生成掩码,还会将该掩码传播到视频的其他帧,生成一个时空掩码。

2. 模型开发

统一的架构设计

  • 图像编码器:处理每一帧图像,生成嵌入表示,用于后续的分割任务。
  • 轻量级掩码解码器:从图像嵌入和提示中输出分割掩码。对于视频,掩码解码器还需要处理跨帧的信息。
  • 内存机制:包括内存编码器、内存库和内存注意模块,这些组件允许模型记住之前处理的信息,并在视频分割过程中使用这些信息保持对象的一致性。
  • 内存编码器:根据当前掩码预测生成记忆,并存储在内存库中。
  • 内存库:存储之前帧和提示帧的记忆。
  • 内存注意模块:从内存库中提取相关记忆,结合当前帧的嵌入,生成新的掩码预测。

3. 数据集构建

SA-V数据集

  • 数据收集:从47个国家收集51,000个真实世界的视频,覆盖多种地理和场景。
  • 标注方法:使用互动模型循环与人工标注相结合的方法。标注人员使用SAM 2进行互动标注,生成初始掩码数据,模型根据这些数据进行更新,逐步提升标注效率和质量。
  • 数据多样性:确保数据集覆盖各种对象及其部分(例如人的衣服、鞋子等),并处理遮挡、消失等复杂情况。

4. 训练过程

联合训练

  • 数据准备:使用SA-1B图像数据集(来自之前的Segment Anything项目)、SA-V视频数据集和内部许可的视频数据集。
  • 训练策略:将图像视为单帧视频,统一进行训练。这样可以利用图像数据的丰富细节和视频数据的时序信息。
  • 优化目标:通过联合训练,提升模型在图像和视频中的分割性能。

5. 模型评估与优化

性能评估

  • 基准测试:在17个零样本视频数据集和23个图像数据集上进行评估,验证模型在不同任务中的性能。
  • 公平性评估:评估模型在不同性别和年龄组中的表现,确保性能一致。

模型优化

  • 交互效率:通过减少交互次数,提高标注效率。与SAM相比,SAM 2在视频分割任务中交互时间减少了三倍。
  • 处理能力:实时处理视频帧,每秒44帧,确保实际应用中的高效性。

应用场景

SAM 2 的广泛应用场景涵盖多个领域,从视频编辑到自动驾驶,再到科学研究和创意应用,以下是一些详细的应用场景:

1. 视频编辑和特效制作

  • 实时对象分割:SAM 2 能够在视频中实时分割和跟踪对象,为视频编辑提供高效工具。编辑人员可以快速分割出视频中的特定对象,并应用各种特效,例如背景替换、对象变换等。
  • 创意效果:使用 SAM 2 的分割结果,可以创建新的视频效果,例如对象的虚化、变形或增强,为内容创作者提供更大的创作自由度。

2. 自动驾驶和机器人技术

  • 环境感知:在自动驾驶和机器人技术中,实时分割和识别周围环境中的各种对象(如行人、车辆、障碍物等)对于导航和决策至关重要。SAM 2 的高精度和实时性使其能够在动态环境中有效工作。
  • 数据注释:自动驾驶系统依赖大量标注数据进行训练。SAM 2 可以显著加快数据标注过程,提高标注效率,减少人工成本。

3. 医学研究和医疗应用

  • 显微镜视频分析:在显微镜视频中,SAM 2 可以分割和追踪细胞、组织等微小结构,辅助科学研究和医学诊断。例如,在癌症研究中,可以精确定位和分析癌细胞的行为。
  • 手术辅助:在内窥镜或腹腔镜手术中,SAM 2 可以实时分割和标记重要的解剖结构,帮助外科医生更精确地进行操作。

4. 科学研究和环境保护

    • 动物行为研究:通过在视频中分割和追踪动物,研究人员可以详细分析动物的行为模式和运动轨迹。这对于生态学和行为学研究具有重要意义。
    • 环境监测:使用无人机或卫星视频,SAM 2 可以实时分割和监测自然环境中的变化,例如森林火灾、洪水等,为环境保护和灾害管理提供关键数据。

5. 安全与监控

      • 实时监控:在安全监控系统中,SAM 2 能够实时分割和跟踪视频中的可疑对象,提高监控效率和准确性。例如,在公共场所监控中,可以快速识别和跟踪潜在的安全威胁。
      • 视频分析:通过分析监控视频,SAM 2 可以提取关键对象和事件,为执法部门提供有力的支持。

6. 内容创建与娱乐

      • 虚拟现实和增强现实:在虚拟现实(VR)和增强现实(AR)应用中,SAM 2 可以实时分割和处理视频中的对象,增强用户体验。例如,AR 应用可以将虚拟对象精确叠加到现实场景中。
      • 游戏开发:游戏开发者可以使用 SAM 2 创建更加逼真的游戏环境和角色交互,提高游戏的视觉效果和沉浸感。未来,SAM 2 可以作为大型人工智能系统的一部分,通过 AR 眼镜识别日常用品,并向用户发出提醒和指示。

7. 教育与培训

如果你想要了解关于智能工具类的内容,可以查看 智汇宝库,这是一个提供智能工具的网站。
在这你可以找到各种智能工具的相关信息,了解智能工具的用法以及最新动态。