云基智能机器人实验室

2023年11月28日,云基智能机器人实验室针对服务机器人人机交互感知的最新研究成果“SATR: Semantics-Aware Triadic Refinement Network for Referring Image Segmentation”在《Knowledge-based Systems》期刊在线发表,根据2023年11月最新升级版检索,该期刊是计算机科学领域影响力较大的期刊,为JCR一区、中科院分区一区TOP期刊,影响因子为8.8。

指代图像分割(Referring Image Segmentation, RIS)是一种基本的跨模态任务,其目的是通过自然语言表达式预测指代目标的像素级分割掩码。现有的方法通常侧重于利用字到像素的交互机制直接生成最终掩码,而忽略了查询和视觉上下文之间的语义对齐,以及被引用对象的丰富细粒度空间细节,导致识别不准确,边界模糊,遗漏小对象。为了解决这些问题,我们提出了一种语义感知的三元细化网络(Semantics-Aware Triadic Refinement , SATR)用于指代图像分割。具体来说,为了弥合视觉和语言模式之间的差距,我们提出了一种语言引导的像素调制(Language-Guided Pixel Modulation, LGPM),它利用单词和句子级别的特征来促进单词到像素的交互和句子到对象的对齐。同时,将LGPM插入现成的预训练视觉主干,共同学习和提取多模态特征,避免了从头开始学习低级特征的繁琐阶段。此外,我们设计了一个三元细化解码器,在不进行任何后处理的情况下,有选择地提取和聚合显著目标特征、像素级细节和边界信息,从而保留了丰富的空间特征,生成高质量的掩码。此外,我们在训练过程中使用多任务策略来捕获目标特定的上下文。实验结果表明,该方法在具有挑战性的RefCOCO、RefCOCO+和RefCOCO数据集上优于先前的方法。