创新工程学院计算机科学与工程学院科研团队在人工智能与计算机视觉顶级国际会议上发表论文

第19届国际计算机视觉会议(International Conference on Computer Vision (ICCV) 2023)于7月14日公布了论文接收情况,创新工程学院计算机科学与工程学院的多篇论文获接收。ICCV是最顶尖的人工智能与计算机视觉方向的国际会议之一(另一个为同是IEEE/CVF组织的国际会议The IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR))。ICCV每2年召开一次,今年将于10月2-6日在法国巴黎举办。

创新工程学院计算机科学与工程学院梁延研副教授、万军特聘副教授、张渡讲座教授团队今年在ICCV2023上投稿了7篇论文,其中3篇获接收,三篇论文的第一作者分别为朱震威(二年级博士生)、杨俪莹(二年级硕士生)和周本加(二年级博士生),通讯作者分别为梁延研副教授和万军副教授。作为第一作者的三位学生均为澳门科技大学本校培养的学生,其中,朱震威为2015级理学学士(软件工程),2019级理学硕士(资讯科技),2021级人工智能博士在读;杨俪莹为2017级理学学士(电子资讯科技),2021级应用数学与数据科学硕士在读,并即将入读2023级理学博士(计算机技术及其应用);周本加为2019级理学硕士(资讯科技),2021级人工智能博士在读。这是近年来澳门科技大学在资讯科技和计算机科学相关学科方面关于培养人才和科学研究的重要成果。

这是继在多个人工智能国际顶尖会议AAAI 2021、IJCAI 2022、CVPR 2022和AAAI 2023发表论文后,科研团队在人工智能国际顶尖会议上取得的又一新突破,也是澳门科技大学作为第一单位首次于ICCV发表研究论文。上述会议均得到中国计算机学会推荐并评级为人工智能领域的A类会议(注:A类为最高级别,中国计算机学会对该类别的定义是国际上极少数的顶级刊物和会议,鼓励我国学者去突破)。

研究论文得到国家科技部-澳门科技发展基金联合项目“通用视觉模型关键技术研究”(0070/2020/AMJ)、澳门科技发展基金面上项目“增强现实中的关键技术研究”(0004/2020/A1)和广东省重点领域研发计划项目“虚拟现实核心引擎关键技术平台研发及产业化”(2019B010148001)资助,三篇论文的题目和摘要简介如下:

1. UMIFormer: Mining the Correlations between Similar Tokens for Multi-View 3D Reconstruction.

近年来,vision transformer结合空间-时间解耦的特征提取方法在视频处理任务上取得突破。同样作为应对多张图像输入的问题,多视角3D重建任务却无法直接继承这种方式。这是因为无序的视角之间关联性完全不确定,并没有类似于视频数据中时序相关性的先验条件可用。为了解决这样的问题,我们提出了UMIFormer——一个全新的transformer网络用于处理无序的多张图像输入。该结构利用Transformer块做解耦的视图内编码,并依赖我们设计的token校正块,挖掘不同视角之间相似tokens的关联性,以实现解耦的视角间编码。之后,再次依据相似性,将从各个视角分支获取的tokens压缩为固定大小的紧致表示,同时保留丰富的信息用于重建。在ShapeNet数据集上,我们验证了所提出的解耦学习方式确实适用于处理无序的多张图像。同时,我们的模型也大幅优于现有的最好方法。

图1. 多视角输入的相似性Token示意图,挖掘相似的Token有利于将相似信息形成关联。

图2. 所提出的方法架构。

2. Gloss-free Sign Language Translation: Improving from Visual-Language Pretraining.

这篇文章中我们提出了一种不需要依赖Gloss 标注信息(gloss-free)的手语翻译(SLT)方法: GFSLT-VLP。Sign Language Gloss 信息的标注需要花费巨大的人力物力成本,而且还需要专门的语言专家进行细粒度标注。这导致当数据规模比较大时,这种标注浪费资源且工程巨大。本文提出的Gloss-free SLT方法首次实现了在完全不需要依赖Gloss标注的情境下,显著缩小了与Gloss-based 方法之间的性能差距。具体来讲,传统的SLT方法为了提高手语翻译的性能,往往需要分阶段训练,即首先进行基于Gloss的手语识别(SLR)预训练,然后再进行手语翻译(SLT)任务,这导致SLT的性能严重依赖于SLR的结果。同时,由于基于Gloss的中间表示存在某种程度的信息瓶颈,导致手语翻译的性能上限很难被进一步突破。

鉴于以上这些问题,本文提出了一种新的Gloss-free 手语翻译范式。整个方法包含两个关键步骤:(i)将多模态预训练领域的视文对比学习范式(CLIP)和NLP领域的掩码自监督学习范式(MSL)结合到一起预训练视觉编码器(Visual Encoder)和文本解码器(Text Decoder)。(ii)构建一个端到端的SLT模型架构,它具有类似编码器-解码器的结构,并继承了第一阶段学习到的视-文知识,从而有效地捕获到语言知识引导的手势特征。这些新颖设计的无缝结合形成了鲁棒的手语表示,并显著提高了Gloss-free手语翻译的性能。

值得一提的是,GFSLT-VLP与最先进的Gloss-free SLT方法相比,在PHOENIX14T数据集上的BLEU-4翻译指标提升了>6个点,在 CSL-Daily数据上的BLEU-4翻译指标提升了>3个点。此外,与大多数基于Gloss的方法相比,我们的方法也取得了相当有竞争力的结果。

图 1. 两种不同的SLT方法。 (a)使用Gloss序列作为中间表示,例如,sign2gloss2text(直接),Sign2Text(间接);(b)在整个训练/推理过程中不使用Gloss信息。

2. 所提出的方法架构。(a)第一阶段进行视-文预训练; (b)继承视-文知识并进行端到端的手语翻译任务。

3. Long-Range Grouping Transformer for Multi-View 3D Reconstruction.

目前,Transformer在许多计算机视觉任务中都表现出了优越的性能。在遵循这一范式的多视图三维重建算法中,当面对大量的视图输入时,自注意力需要处理包含大量信息的复杂图像令牌。信息内容的爆炸导致模型学习的难度极大。为了缓解这个问题,最近的方法压缩了表示每个视图的令牌,或者放弃计算不同视图令牌之间的注意力。显然,它们会对性能产生负面的影响。因此,我们提出了基于分而治之原则的长距离分组注意力(LGA)。来自所有视图的令牌都会被分组,以进行单独的注意力操作。每个组中的令牌从所有视图中采样,并且可以为当前视图提供宏观表示。不同组间的多样性确保了特征学习的丰富性。我们通过使用LGA连接视图间特征,并使用标准的自注意力层提取视图内特征,提出一种高效的编码器。 此外,我们设计出一个新颖的渐进式上采样解码器,用于生成具有相对高分辨率的体素。基于以上内容,我们最终构建出一种基于Transformer的网络,命名为LRGT。在ShapeNet数据集上的结果证明LRGT在多视图三维重建任务中达到了卓越的性能。

图1. 提出的方法架构。