刚刚，AI开始分割一切！Meta开源SAM 2，任意视频、图像都可以任意分割了

就在刚刚，Meta 突然发布并开源了新一代对象分割模型——SAM 2，这是第一个用于图像和视频中实时、可提示的对象分割的统一模型。

据介绍，SAM 2 可以分割任何视频或图像中的任何物体，即使从未见过，因而可以用于现实生活中的任意场景。相比于上一代模型，SAM 2 的图像分割更准确，且速度快了 6 倍。

值得一提的是，SAM 2 的输出结果可与生成式视频模型结合使用，从而创建出新的视频效果，进而催生出新的创意应用。

同时，SAM 2 还能帮助加快视觉数据标注工具的开发，从而建立更好的计算机视觉系统。

此外，SAM 2 现已在 Apache 2.0 下发布，从现在开始，任何人都可以使用 SAM 2 来构建自己的体验。

SAM 2 是如何被构建的？

Meta 团队首先开发了可提示的视觉分割任务，并设计了一个能够执行此任务的模型，即 SAM 2。他们使用 SAM 2 帮助创建一个视频对象分割数据集（SA-V），其规模比目前存在的任何数据集都要大一个数量级，并使用它来训练 SAM 2 以实现最先进的性能。

图 | 研究团队引入了分段任意模型 2 (SAM 2)，用他们的基础模型(b)来解决提示视觉分割任务(a)，该模型是在通过他们的数据引擎(c)收集的大规模 SA-V 数据集上训练的。

可提示的视觉分割

研究团队设计了一个可提示的视觉分割任务，将图像分割任务泛化到视频领域。SAM 经过训练，可以接受图像中的点、框或遮罩作为输入来定义目标对象并预测一个分割遮罩。对于 SAM 2，团队训练它接受视频中任何一帧的输入提示来定义要预测的时空遮罩（masklet）。SAM 2 根据输入提示立即预测当前帧的遮罩，并随着时间的推移将其传播，以生成目标对象在所有视频帧中的 masklet。一旦预测了初始的 masklet，就可以通过在任何帧向 SAM 2 提供额外的提示来迭代地细化它。这可以重复进行，直到获得所需的 masklet。

图像和视频分割的统一架构

研究团队采用了流式架构，这是 SAM 到视频领域的自然泛化，逐个处理视频帧，并存储有关分割对象的信息。在处理每个新帧时，SAM 2 使用记忆注意力模块来关注目标对象的先前记忆。这种设计允许实时处理任意长度的视频，这对于收集 SA-V 数据集时的标注效率以及实际应用（例如在机器人技术中）都非常重要。

SAM 引入了在分割图像中的对象存在模糊性时输出多个有效 masklet 的能力。例如，当一个人点击自行车轮胎时，模型可以将这个点击解释为仅指轮胎或整个自行车，并输出多个预测。在视频中，这种模糊性可以跨越视频帧。例如，如果在一帧中只看到轮胎，那么点击轮胎可能仅与轮胎相关，或者随着后续帧中更多自行车部分变得可见，这个点击可能原本是针对整个自行车的。为了处理这种模糊性，SAM 2 在视频的每一步都创建多个 masklet。如果进一步的提示没有解决模糊性，模型将选择置信度最高的 masklet，以在视频中进一步传播。

在图像分割任务中，给定一个正提示，总有一个有效的对象可以在帧中分割。在视频中，可能由于对象被遮挡或从视野中消失，特定帧上可能不存在有效的对象。为了适应这种新的输出模式，他们增加了一个额外的模型输出（“遮挡头”），用来预测感兴趣的对象是否存在于当前帧上。这使得 SAM 2 能够有效地处理遮挡。