学院4篇论文被国际顶级会议ACM MM 2023录用

来源:计算机与人工智能学院 发布日期: Sun Aug 27 00:00:00 CST 2023 浏览次数:2838

 

       学院4篇论文被国际顶级会议——第31届国际多媒体学术会议(ACM International Conference on Multimedia,简称ACM MM 2023)录用。这4篇论文均是以西南交通大学为第一署名单位。国际多媒体学术会议(ACM MM)是计算机学科公认的多媒体领域和计算机视觉领域的国际顶级会议,被中国计算机学会(CCF)列为A类会议。这是学院连续八年在CCF A类国际一流会议发表高水平论文,标志着我院在人工智能和计算机视觉领域的研究成果得到了国际同行的认可。

       论文《Improving Anomaly Segmentation with Multi-Granularity Cross-Domain Alignment》(作者:Ji Zhang, Xiao Wu, Zhi-Qi Cheng, Qi He, Wei Li),博士生张基为第一作者,吴晓教授为通讯作者。论文提出了一种基于多粒度跨域对齐的异常检测框架(MGCDA),用于分割道路上的抛洒物等异常目标。异常分割在图像中识别异常对象方面具有关键作用,从而有助于自动驾驶中的道路异常检测。尽管现有方法已经在使用合成训练数据进行异常分割方面取得了不错的结果,但合成训练数据与真实测试数据之间的域差异常常被忽视。为解决这个问题,提出了在复杂驾驶环境下的多粒度跨域对齐框架。该框架结合了多源域对抗训练模块和新颖的跨域异常感知对比学习方法,以提升模型的泛化能力。它在场景和样本级别无缝地整合了多域数据,集成了多源域对抗损失和动态标签平滑策略,通过在多个阶段进行对抗训练,促进在场景级别获取域不变特征。同时,使用跨域数据上的对比损失来对齐样本级别的表示,利用了异常感知的采样策略,以高效地选择难样本和锚点。所提出的框架在推理阶段具有不增加推理参数的优点,并且与其他异常分割网络兼容。

 

图1. 基于多粒度跨域对齐的异常检测框架


       论文《Human-Object-Object Interaction: Towards Human-Centric Complex Interaction Detection》(作者:Ming-Xuan Zhang, Xiao Wu, Zhaoquan Yuan, Qi He, Xiang Huang),博士生张铭宣为第一作者,吴晓教授为通讯作者。论文引入了一种新的任务,称为人-物-物交互动作(HOOI)检测,并针对此问题提出了一种新颖的方法,称为人-物-物交互网络(H2O-Net),它由两个模块组成:顺序运动特征提取和HOOI建模。顺序运动特征提取模块通过利用多个细粒度分区的时空特征,提取了交互过程中实体逐渐演变的视觉特征。人与物交互模块首先捕获并合并两个子交互特征,以提取全面的HOOI特征,然后使用长期全局上下文中的交互线索对其进行细化。

 

图2. H2O-Net框架图

 

       论文《CPNet: Cartoon Parsing with Pixel and Part Correlation》(作者:Jian-Jun Qiao, Jie Zhang, Xiao Wu, Yu-Pei Song, Wei Li),博士生乔建军为第一作者,吴晓教授为通讯作者。论文提出了一种基于像素关联和肢体关联的卡通解析方法(CPNet)用于分割卡通形象的不同部分。卡通解析在动画产业和元宇宙中具有重要应用,但卡通解析面临卡通形象抽象、不规则、个体差异大、视觉外观复杂等挑战。CPNet通过学习像素关联来区分复杂或者相似的肢体部分,依靠像素感知注意力捕获重要像素,利用肢体中心点检测分支关联肢体内像素。此外,通过学习肢体关联来解决卡通形象抽象和不规则的问题,通过图神经网络构建卡通身体结构和关联相邻肢体,利用非局部注意力感知每个肢体和整个卡通身体的关联,通过局部和全局关联的方式解决卡通形象抽象和不规则的问题。

 

图3. CPNet 总体框架图

 

       论文《Debunking Free Fusion Myth: Online Multi-view Anomaly Detection with Disentangled Product-of-Experts Modeling》(作者:Hao Wang, Zhi-Qi Cheng, Jingdong Sun, Xin Yang, Xiao Wu, Hongyang Chen, Yan Yang),王浩为第一作者,杨燕教授为通讯作者。多视图数据中的检测异常是一项重要的研究课题,多视图数据或特定的多模态数据对于实际应用而言既具有吸引力又具有挑战性。论文提出了一种新颖的多视图变分自编码器模型dPoE,用于多视图数据的异常检测。论文重点探究了模型的通用性、表征的解耦能力,以及在线异常检测问题。提出了dPoE主要包括:用于处理多视图数据的专家乘积(PoE)层;用于解耦视图共有和视图特有表征的总体校正(TC)鉴别器;以及用于整合所有组件的联合损失函数。此外,设计了理论信息界来约束数据表征,并给出“No Free Fusion“定理。

 

图4 多视图数据异常检测构架

 

       计算机与人工智能学院在计算机领域国际会议的连续突破,反映出学院在“智能引领、交叉融合”的战略牵引下,在计算机视觉、智能交通等方面取得了重要进展。