让建站和SEO变得简单

让不懂建站的用户快速建站,让会建站的提高建站效率!

你的位置:知识快递 > 未来趋势 >

经典卡尔曼滤波器翻新视频版「分割一切」,网友:好优雅的设施

发布日期:2024-12-01 04:17    点击次数:129

金磊 发自 凹非寺量子位 | 公众号 QbitAI

Meta的视频版分割一切——Segment Anything Model 2(SAM 2),又火了一把。

因为这一次,一个全华东说念主团队,只是是用了个经典设施,就把它的智力拔到了一个新高度——

任你迁徙再快,AI跟丢不了少量点!

举例在电影《1917》这段画面里,主角穿梭在繁多士兵之中,原先的SAM 2阐明是这样的:

嗯,当一大群士兵涌入画面的时候,SAM 2把主角给跟丢了。

但翻新版的SAM 2,它的阐明迥然相异:

这个翻新版的SAM 2,名叫SAMURAI(武士),由华盛顿大学全华东说念主接洽团队惨酷。

一言蔽之,这项责任就是把SAM 2之前存在的过失(追忆照看方面的局限性)给填补上了。

更有酷好的是,这项翻新责任所用到的中枢症结设施,吵嘴常经典的卡尔曼滤波器(Kalman Filter,KF)。

况且如故无需从头历练、不错及时开动的那种!

前谷歌产物司理、海外著明博主Bilawal Sidhu在看完论文后直呼“优雅”:

未必候你不需要复杂的全新架构——只需要智谋地诈欺模子已知的信息,再加上一些经过考证的经典设施。咱们的“老一又友”卡尔曼滤波器,这样多年昔日了,它的阐明依然如斯出色。未必候老派的设施就是管用。

嗯,颇有一种“姜如故老的辣”的嗅觉了。

黑悟空、女团跳舞,齐全王人能hold住

咱们先赓续看下SAMURAI智力罢了的更多成果。

团队在技俩主页中便从多个不同维度秀了一波实力。

当先就是打斗游戏场景,举例在《只狼:影逝二度》中,即便东说念主物王人“弹出”了画面,SAMURAI也能再次把指标捕捉总结:

《黑传说:悟空》的打斗名方式,东说念主物动作变化不错说吵嘴常之快,而且和布景相等复杂的交汇在沿路。

即便如斯,SAMURAI也能精确追踪,细节到金箍棒的那种:

但毕竟这两个游戏场景的例子,所触及到的主体还不够多,那么咱们接下来赓续看下更复杂的case。

举例橄榄球比赛场景,不仅东说念主物迁徙的快,自后队员们王人扑到了沿路,SAMURAI也能hold住:

在女团跳舞的案例中,东说念主物在变换队形的时候王人一经被其他队员挡住了,也挡不住SAMURAI的“目力锁定你”:

很work的经典设施

在看完成果之后,咱们接下来扒一扒SAMURAI的本事细节。

正如咱们刚才提到的,这项责任弥补了SAM 2此前存在的过失。

主要的问题就是处理视觉指标追踪时,尤其是在拥堵场景中快速迁徙或荫庇的物体时,它会出现跟丢了的情况。

SAM 2的构成部分包括图像编码器、掩码解码器、辅导编码器、追忆细心力层和追忆编码器。

在视觉指标追踪中,SAM 2使用辅导编码器来处理输入的辅导信息,如点、框或文本,这些辅导信息用于素养模子分割图像中的特定对象。

掩码解码器则细腻生成瞻望的掩码,而追忆细心力层和追忆编码器则用于处理跨帧的高下文信息,以看守永恒追踪。

相干词,SAM 2在处理快速迁徙的对象或在拥堵场景中,常常忽视了领悟陈迹,导致在瞻望后续帧的掩码时出现不准确。

终点是在荫庇发生时,SAM 2倾向于优先商量外不雅相通性而非空间和时辰的一致性,这可能导致追踪失实。

而SAMURATI,手脚SAM 2的增强版,不错说是很好地措置了此前的痛点。

合座来看,SAMURAI主要包含两个本事症结点:

领悟建模(Motion Modeling)领悟感知追忆经受(Motion-Aware Memory Selection)

让指标“动”起来

领悟建模部分的宗旨是有用地瞻望指标的领悟,从而在复杂场景中,如拥堵场景或指标快速迁徙和自荫庇的情况下,进步追踪的准确性和鲁棒性。

而这里用到的具体设施,就是阿谁经典的卡尔曼滤波器,以此来增强范畴框位置和尺寸的瞻望,从而匡助从多个候选掩码中经受最有信心的一个。

在SAMURAI中,景象向量包括指标的位置、尺寸过甚变化速率;通过瞻望-矫正轮回,卡尔曼滤波器简略提供对于指标改日景象的准确揣测。

指标的景象向量被界说为:

其中,x和y示意指标范畴框的中心坐标;w和h示意范畴框的宽度和高度;后四个变量则示意坐标与尺寸的速率。

滤波的进程则主要分为两个要领。

第一个就是瞻望阶段,即凭证指标的上一帧景象,瞻望下一帧位置:

其中,F是景象滚动矩阵。

第二个则是更新阶段,会联接实质测量值(指标的候选掩膜),矫正瞻望值:

在领悟建模部分,除了基于卡尔曼滤波器的领悟瞻望除外,还触及领悟分数(Motion Score)。

主若是通过盘算 Kalman 滤波器瞻望的范畴框与候选掩膜之间的交并比(IoU),生成领悟分数sKf,用以援手掩膜经受:

最终的掩膜经受基于领悟分数与掩膜亲和分数的加权和:

挑出最症结的追忆

SAMURAI第二个症结本事,则是领悟感知追忆经受(Motion-Aware Memory Selection)。

主若是为了措置SAM 2的固定窗口追忆机制容易引入失实的低质料特征,导致后续追踪的舛错传播的情况。

这部分当先触及一个搀杂评分系统,包括掩膜分数、指标出现分数和领悟分数三种评分,用于动态经受追忆库中最有关的帧。

掩膜分数smask:接洽掩膜的准确性。指标出现分数 sobj:判断指标是否存在于该帧中。领悟分数 skf:瞻望指标位置的准确性。其次是一个追忆经受机制——

如果某帧称心以下条目,则其特征会被保留到追忆库中:

动态经受的追忆库不错跳过荫庇时代的低质料特征,从而进步后续帧的瞻望性能。

从施行限度来看,SAMURAI在多个视觉指标追踪基准上阐明出色,包括 LaSOT、LaSOText和GOT-10k数据集。

值得一提的是,SAMURAI是在无需从头历练或微调的情况下,在悉数基准上王人跳动了SAM 2,并与部分有监督设施(如 LoRAT 和 ODTrack)阐明相等。

全华东说念主团队出品

SAMURAI这项责任背后的接洽团队,有一个亮点等于全华东说念主气势。

举例Cheng-Yen Yang,现在是华盛顿大学电气与盘算机工程系的别称四年岁博士生。

接洽标的主要包括在复杂场景(水下,无东说念主机,多相机系统)中的多指标追踪(单视图,多视图,交叉视图)。

Hsiang-Wei Huang和Zhongyu Jiang亦然华盛顿大学电气与盘算机工程系的博士生,而Wenhao Chai现在则是攻读接洽生。

他们的导师是华盛顿大学西宾Jenq-Neng Hwang。

他是IEEE信号处理协会多媒体信号处理本事委员会的首创东说念主之一,自2001年以来,黄西宾一直是IEEE院士。

对于SAMURAI更多内容,可戳下方和解。

技俩地址:https://yangchris11.github.io/samurai/

论文地址:https://arxiv.org/abs/2411.11922

参考和解:[1]https://x.com/EHuanglu/status/1860090091269685282[2]https://x.com/bilawalsidhu/status/1860348056916369881



上一篇:景顺景颐A,景顺景颐C: 景顺长城景颐双利债券型证券投资基金基金家具贵寓摘抄更新    下一篇:12月,理财新一轮大涨