发布日期:2024-12-01 04:17 点击次数:129
金磊 发自 凹非寺量子位 | 公众号 QbitAI
Meta的视频版分割一切——Segment Anything Model 2(SAM 2),又火了一把。
因为这一次,一个全华东说念主团队,只是是用了个经典设施,就把它的智力拔到了一个新高度——
任你迁徙再快,AI跟丢不了少量点!
举例在电影《1917》这段画面里,主角穿梭在繁多士兵之中,原先的SAM 2阐明是这样的:
嗯,当一大群士兵涌入画面的时候,SAM 2把主角给跟丢了。
但翻新版的SAM 2,它的阐明迥然相异:
这个翻新版的SAM 2,名叫SAMURAI(武士),由华盛顿大学全华东说念主接洽团队惨酷。
一言蔽之,这项责任就是把SAM 2之前存在的过失(追忆照看方面的局限性)给填补上了。
更有酷好的是,这项翻新责任所用到的中枢症结设施,吵嘴常经典的卡尔曼滤波器(Kalman Filter,KF)。
况且如故无需从头历练、不错及时开动的那种!
前谷歌产物司理、海外著明博主Bilawal Sidhu在看完论文后直呼“优雅”:
未必候你不需要复杂的全新架构——只需要智谋地诈欺模子已知的信息,再加上一些经过考证的经典设施。咱们的“老一又友”卡尔曼滤波器,这样多年昔日了,它的阐明依然如斯出色。未必候老派的设施就是管用。
嗯,颇有一种“姜如故老的辣”的嗅觉了。
黑悟空、女团跳舞,齐全王人能hold住
咱们先赓续看下SAMURAI智力罢了的更多成果。
团队在技俩主页中便从多个不同维度秀了一波实力。
当先就是打斗游戏场景,举例在《只狼:影逝二度》中,即便东说念主物王人“弹出”了画面,SAMURAI也能再次把指标捕捉总结:
《黑传说:悟空》的打斗名方式,东说念主物动作变化不错说吵嘴常之快,而且和布景相等复杂的交汇在沿路。
即便如斯,SAMURAI也能精确追踪,细节到金箍棒的那种:
但毕竟这两个游戏场景的例子,所触及到的主体还不够多,那么咱们接下来赓续看下更复杂的case。
举例橄榄球比赛场景,不仅东说念主物迁徙的快,自后队员们王人扑到了沿路,SAMURAI也能hold住:
在女团跳舞的案例中,东说念主物在变换队形的时候王人一经被其他队员挡住了,也挡不住SAMURAI的“目力锁定你”:
很work的经典设施
在看完成果之后,咱们接下来扒一扒SAMURAI的本事细节。
正如咱们刚才提到的,这项责任弥补了SAM 2此前存在的过失。
主要的问题就是处理视觉指标追踪时,尤其是在拥堵场景中快速迁徙或荫庇的物体时,它会出现跟丢了的情况。
SAM 2的构成部分包括图像编码器、掩码解码器、辅导编码器、追忆细心力层和追忆编码器。
在视觉指标追踪中,SAM 2使用辅导编码器来处理输入的辅导信息,如点、框或文本,这些辅导信息用于素养模子分割图像中的特定对象。
掩码解码器则细腻生成瞻望的掩码,而追忆细心力层和追忆编码器则用于处理跨帧的高下文信息,以看守永恒追踪。
相干词,SAM 2在处理快速迁徙的对象或在拥堵场景中,常常忽视了领悟陈迹,导致在瞻望后续帧的掩码时出现不准确。
终点是在荫庇发生时,SAM 2倾向于优先商量外不雅相通性而非空间和时辰的一致性,这可能导致追踪失实。
而SAMURATI,手脚SAM 2的增强版,不错说是很好地措置了此前的痛点。
合座来看,SAMURAI主要包含两个本事症结点:
领悟建模(Motion Modeling)领悟感知追忆经受(Motion-Aware Memory Selection)
让指标“动”起来
领悟建模部分的宗旨是有用地瞻望指标的领悟,从而在复杂场景中,如拥堵场景或指标快速迁徙和自荫庇的情况下,进步追踪的准确性和鲁棒性。
而这里用到的具体设施,就是阿谁经典的卡尔曼滤波器,以此来增强范畴框位置和尺寸的瞻望,从而匡助从多个候选掩码中经受最有信心的一个。
在SAMURAI中,景象向量包括指标的位置、尺寸过甚变化速率;通过瞻望-矫正轮回,卡尔曼滤波器简略提供对于指标改日景象的准确揣测。
指标的景象向量被界说为:
其中,x和y示意指标范畴框的中心坐标;w和h示意范畴框的宽度和高度;后四个变量则示意坐标与尺寸的速率。
滤波的进程则主要分为两个要领。
第一个就是瞻望阶段,即凭证指标的上一帧景象,瞻望下一帧位置:
其中,F是景象滚动矩阵。
第二个则是更新阶段,会联接实质测量值(指标的候选掩膜),矫正瞻望值:
在领悟建模部分,除了基于卡尔曼滤波器的领悟瞻望除外,还触及领悟分数(Motion Score)。
主若是通过盘算 Kalman 滤波器瞻望的范畴框与候选掩膜之间的交并比(IoU),生成领悟分数sKf,用以援手掩膜经受:
最终的掩膜经受基于领悟分数与掩膜亲和分数的加权和:
挑出最症结的追忆
SAMURAI第二个症结本事,则是领悟感知追忆经受(Motion-Aware Memory Selection)。
主若是为了措置SAM 2的固定窗口追忆机制容易引入失实的低质料特征,导致后续追踪的舛错传播的情况。
这部分当先触及一个搀杂评分系统,包括掩膜分数、指标出现分数和领悟分数三种评分,用于动态经受追忆库中最有关的帧。
掩膜分数smask:接洽掩膜的准确性。指标出现分数 sobj:判断指标是否存在于该帧中。领悟分数 skf:瞻望指标位置的准确性。其次是一个追忆经受机制——
如果某帧称心以下条目,则其特征会被保留到追忆库中:
动态经受的追忆库不错跳过荫庇时代的低质料特征,从而进步后续帧的瞻望性能。
从施行限度来看,SAMURAI在多个视觉指标追踪基准上阐明出色,包括 LaSOT、LaSOText和GOT-10k数据集。
值得一提的是,SAMURAI是在无需从头历练或微调的情况下,在悉数基准上王人跳动了SAM 2,并与部分有监督设施(如 LoRAT 和 ODTrack)阐明相等。
全华东说念主团队出品
SAMURAI这项责任背后的接洽团队,有一个亮点等于全华东说念主气势。
举例Cheng-Yen Yang,现在是华盛顿大学电气与盘算机工程系的别称四年岁博士生。
接洽标的主要包括在复杂场景(水下,无东说念主机,多相机系统)中的多指标追踪(单视图,多视图,交叉视图)。
Hsiang-Wei Huang和Zhongyu Jiang亦然华盛顿大学电气与盘算机工程系的博士生,而Wenhao Chai现在则是攻读接洽生。
他们的导师是华盛顿大学西宾Jenq-Neng Hwang。
他是IEEE信号处理协会多媒体信号处理本事委员会的首创东说念主之一,自2001年以来,黄西宾一直是IEEE院士。
对于SAMURAI更多内容,可戳下方和解。
技俩地址:https://yangchris11.github.io/samurai/
论文地址:https://arxiv.org/abs/2411.11922
参考和解:[1]https://x.com/EHuanglu/status/1860090091269685282[2]https://x.com/bilawalsidhu/status/1860348056916369881