经典卡尔曼滤波器翻新视频版「分割一切」，网友：好优雅的设施

知识快递V5.0

让建站和SEO变得简单

让不懂建站的用户快速建站，让会建站的提高建站效率！

你的位置：知识快递 > 未来趋势 >

经典卡尔曼滤波器翻新视频版「分割一切」，网友：好优雅的设施

发布日期：2024-12-01 04:17 点击次数：131

金磊发自凹非寺量子位 | 公众号 QbitAI

Meta的视频版分割一切——Segment Anything Model 2（SAM 2），又火了一把。

因为这一次，一个全华东说念主团队，只是是用了个经典设施，就把它的智力拔到了一个新高度——

任你迁徙再快，AI跟丢不了少量点！

举例在电影《1917》这段画面里，主角穿梭在繁多士兵之中，原先的SAM 2阐明是这样的：

嗯，当一大群士兵涌入画面的时候，SAM 2把主角给跟丢了。

但翻新版的SAM 2，它的阐明迥然相异：

这个翻新版的SAM 2，名叫SAMURAI（武士），由华盛顿大学全华东说念主接洽团队惨酷。

一言蔽之，这项责任就是把SAM 2之前存在的过失（追忆照看方面的局限性）给填补上了。

更有酷好的是，这项翻新责任所用到的中枢症结设施，吵嘴常经典的卡尔曼滤波器（Kalman Filter，KF）。

况且如故无需从头历练、不错及时开动的那种！

前谷歌产物司理、海外著明博主Bilawal Sidhu在看完论文后直呼“优雅”：

未必候你不需要复杂的全新架构——只需要智谋地诈欺模子已知的信息，再加上一些经过考证的经典设施。咱们的“老一又友”卡尔曼滤波器，这样多年昔日了，它的阐明依然如斯出色。未必候老派的设施就是管用。

嗯，颇有一种“姜如故老的辣”的嗅觉了。

黑悟空、女团跳舞，齐全王人能hold住

咱们先赓续看下SAMURAI智力罢了的更多成果。

团队在技俩主页中便从多个不同维度秀了一波实力。

当先就是打斗游戏场景，举例在《只狼：影逝二度》中，即便东说念主物王人“弹出”了画面，SAMURAI也能再次把指标捕捉总结：

《黑传说：悟空》的打斗名方式，东说念主物动作变化不错说吵嘴常之快，而且和布景相等复杂的交汇在沿路。

即便如斯，SAMURAI也能精确追踪，细节到金箍棒的那种：

但毕竟这两个游戏场景的例子，所触及到的主体还不够多，那么咱们接下来赓续看下更复杂的case。

举例橄榄球比赛场景，不仅东说念主物迁徙的快，自后队员们王人扑到了沿路，SAMURAI也能hold住：

在女团跳舞的案例中，东说念主物在变换队形的时候王人一经被其他队员挡住了，也挡不住SAMURAI的“目力锁定你”：

很work的经典设施

在看完成果之后，咱们接下来扒一扒SAMURAI的本事细节。

正如咱们刚才提到的，这项责任弥补了SAM 2此前存在的过失。

主要的问题就是处理视觉指标追踪时，尤其是在拥堵场景中快速迁徙或荫庇的物体时，它会出现跟丢了的情况。

SAM 2的构成部分包括图像编码器、掩码解码器、辅导编码器、追忆细心力层和追忆编码器。

在视觉指标追踪中，SAM 2使用辅导编码器来处理输入的辅导信息，如点、框或文本，这些辅导信息用于素养模子分割图像中的特定对象。

掩码解码器则细腻生成瞻望的掩码，而追忆细心力层和追忆编码器则用于处理跨帧的高下文信息，以看守永恒追踪。

相干词，SAM 2在处理快速迁徙的对象或在拥堵场景中，常常忽视了领悟陈迹，导致在瞻望后续帧的掩码时出现不准确。

终点是在荫庇发生时，SAM 2倾向于优先商量外不雅相通性而非空间和时辰的一致性，这可能导致追踪失实。

而SAMURATI，手脚SAM 2的增强版，不错说是很好地措置了此前的痛点。

合座来看，SAMURAI主要包含两个本事症结点：

领悟建模（Motion Modeling）领悟感知追忆经受（Motion-Aware Memory Selection）

让指标“动”起来

领悟建模部分的宗旨是有用地瞻望指标的领悟，从而在复杂场景中，如拥堵场景或指标快速迁徙和自荫庇的情况下，进步追踪的准确性和鲁棒性。

而这里用到的具体设施，就是阿谁经典的卡尔曼滤波器，以此来增强范畴框位置和尺寸的瞻望，从而匡助从多个候选掩码中经受最有信心的一个。

在SAMURAI中，景象向量包括指标的位置、尺寸过甚变化速率；通过瞻望-矫正轮回，卡尔曼滤波器简略提供对于指标改日景象的准确揣测。

指标的景象向量被界说为：

其中，x和y示意指标范畴框的中心坐标；w和h示意范畴框的宽度和高度；后四个变量则示意坐标与尺寸的速率。

滤波的进程则主要分为两个要领。

第一个就是瞻望阶段，即凭证指标的上一帧景象，瞻望下一帧位置：

其中，F是景象滚动矩阵。

第二个则是更新阶段，会联接实质测量值（指标的候选掩膜），矫正瞻望值：

在领悟建模部分，除了基于卡尔曼滤波器的领悟瞻望除外，还触及领悟分数（Motion Score）。

主若是通过盘算 Kalman 滤波器瞻望的范畴框与候选掩膜之间的交并比（IoU），生成领悟分数sKf，用以援手掩膜经受：

最终的掩膜经受基于领悟分数与掩膜亲和分数的加权和：

挑出最症结的追忆

SAMURAI第二个症结本事，则是领悟感知追忆经受（Motion-Aware Memory Selection）。

主若是为了措置SAM 2的固定窗口追忆机制容易引入失实的低质料特征，导致后续追踪的舛错传播的情况。

这部分当先触及一个搀杂评分系统，包括掩膜分数、指标出现分数和领悟分数三种评分，用于动态经受追忆库中最有关的帧。

掩膜分数smask：接洽掩膜的准确性。指标出现分数 sobj：判断指标是否存在于该帧中。领悟分数 skf：瞻望指标位置的准确性。其次是一个追忆经受机制——

如果某帧称心以下条目，则其特征会被保留到追忆库中：

动态经受的追忆库不错跳过荫庇时代的低质料特征，从而进步后续帧的瞻望性能。

从施行限度来看，SAMURAI在多个视觉指标追踪基准上阐明出色，包括 LaSOT、LaSOText和GOT-10k数据集。

值得一提的是，SAMURAI是在无需从头历练或微调的情况下，在悉数基准上王人跳动了SAM 2，并与部分有监督设施（如 LoRAT 和 ODTrack）阐明相等。

全华东说念主团队出品

SAMURAI这项责任背后的接洽团队，有一个亮点等于全华东说念主气势。

举例Cheng-Yen Yang，现在是华盛顿大学电气与盘算机工程系的别称四年岁博士生。

接洽标的主要包括在复杂场景（水下，无东说念主机，多相机系统）中的多指标追踪（单视图，多视图，交叉视图）。

Hsiang-Wei Huang和Zhongyu Jiang亦然华盛顿大学电气与盘算机工程系的博士生，而Wenhao Chai现在则是攻读接洽生。

他们的导师是华盛顿大学西宾Jenq-Neng Hwang。

他是IEEE信号处理协会多媒体信号处理本事委员会的首创东说念主之一，自2001年以来，黄西宾一直是IEEE院士。

对于SAMURAI更多内容，可戳下方和解。

技俩地址：https://yangchris11.github.io/samurai/

论文地址：https://arxiv.org/abs/2411.11922

参考和解：[1]https://x.com/EHuanglu/status/1860090091269685282[2]https://x.com/bilawalsidhu/status/1860348056916369881

上一篇：景顺景颐A,景顺景颐C: 景顺长城景颐双利债券型证券投资基金基金家具贵寓摘抄更新下一篇：12月，理财新一轮大涨

让建站和SEO变得简单

你的位置：知识快递 > 未来趋势 >

经典卡尔曼滤波器翻新视频版「分割一切」，网友：好优雅的设施

热点资讯

相关资讯