喜报!学院6篇论文被国际顶级会议AAAI录用

来源:计算机与人工智能学院 发布日期: Tue Dec 17 00:00:00 CST 2024 浏览次数:1629

        近日,学院6篇论文被国际顶级会议——第39届AAAI人工智能年会(AAAI Conference on Artificial Intelligence,简称AAAI)录用,本届会议将在美国宾夕法尼亚州费城举行。论文均是以西南交通大学为第一署名单位。在全球12957篇有效投稿中,3032篇论文被录用,接收率为23.4%。AAAI人工智能年会(AAAI)是计算机学科公认的人工智能领域的国际顶级会议,被中国计算机学会(CCF)列为A类会议。这是学院连续十年在CCF A类国际一流会议发表高水平论文,标志着我院在人工智能领域的研究成果得到了国际同行的认可。
        论文《Enhancing Multi-Robot Semantic Navigation Through Multimodal Chain-of-Thought Score Collaboration》(作者:Zhixuan Shen, Haonan Luo, Kexun Chen, Fengmao Lv, Tianrui Li),以西南交通大学为第一署名单位,博士生沈植铉为第一作者,罗皓楠副教授为通讯作者,与西南交通大学硕士生陈柯汛、吕凤毛副教授和李天瑞教授共同合作完成。现有的方法主要集中在单机器人集中规划策略上,严重限制了探索效率。论文针对此现象提出了多模态思维链协同导航(MCoCoNav),利用多模态思维链来规划多机器人协同语义导航。论文将视觉感知与大型视觉语言模型相结合,通过概率评分来评估探索价值,从而减少时间成本并获得稳定的输出;此外,论文采用全局语义地图作为通信桥梁。在反映探索趋势的分数的指导下,机器人利用全局语义地图来评估是探索新的边界点还是重新访问历史节点,集成观测结果的同时最大限度地减少通信开销。

 

图1. 多模态思维链协同导航(MCoCoNav)的框架


        论文《Exploring Temporal Event Cues for Dense Video Captioning in Cyclic Co-learning》(作者:Zhuyang Xie, Yan Yang, Yankai Yu, Jie Wang, Yongquan Jiang, Xiao Wu),以西南交通大学为第一署名单位,博士生谢朱洋为第一作者,杨燕教授为通讯作者,与西南交通大学吴晓教授、江永全老师、王杰博士后和余棪凯博士共同合作完成。密集视频字幕在自动视频解析和多模态生成领域具有重要应用,但面临事件时序复杂、语义多样性等挑战。论文提出了一种基于多概念循环学习(MCCL)的密集视频字幕方法,用于检测和描述未修剪视频中的所有事件。MCCL通过弱监督的多概念检测增强视频特征,并利用视频级概念对比学习得到更具判别力的概念嵌入。此外,MCCL设计了生成器与定位器之间的循环共同学习机制,通过语义匹配和位置匹配实现语义感知与事件定位的相互促进。

 

图2. MCCL框架图

 

        论文《RepFace: Refining Closed-Set Noise with Progressive Label Correction for Face Recognition》(作者:Jie Zhang, XunGong, Zhonglin Sun),以西南交通大学为第一署名单位,硕士生张杰为第一作者,龚勋教授为通讯作者,伦敦玛丽女王大学博士生孙中林参与论文合作。现有针对人脸识别标签噪声的方法多是在模型具有一定的识别能力后,才对标签予以矫正,且在训练前期在噪声数据集中展开训练,这对模型后期矫正的鲁棒性造成了困难。针对这一问题,论文提出了多阶段的标签矫正框架(RepFace):根据样本标签类和最近负类之间的关系,将样本划分为正确样本、模糊样本以及噪声样本,并对它们实施不同的处理策略。在训练前期,通过生成辅助样本来对噪声进行清理,以此提升模型在前期训练中的鲁棒性。此外,我们针对模糊样本提出了标签融合的策略,针对噪声样本提出了平滑标签矫正策略,强化了模型对标签噪声的鲁棒性,在多个人脸识别数据集上结果均表明RepFace 性能最优。

 

图3:噪声标签条件下人脸识别 RepFace框架图


        论文《POPoS: Improving Efficient and Robust Facial Landmark Detection with Parallel Optimal Position Search》(作者:Chong-Yang Xiang, Jun-Yan He, Zhi-Qi Cheng, Xiao Wu, Xian-Sheng Hua)以西南交通大学为第一署名单位,第一作者为博士生向重洋,通讯作者为IEEE Fellow、特斯联CTO华先胜博士,与西南交通大学吴晓教授以及阿里巴巴达摩院何俊彦博士,卡内基梅隆大学Project Scientist程治淇博士共同合作完成。脸部关键点检测是人脸识别、对齐等领域的基础,但面临精度与高效性的挑战。论文提出了一种基于热图的并行最优位置搜索的高精度编码-解码框架(POPoS),用于解决面部关键点检测方法的局限性。为了解决精度问题,论文提出利用伪距多点定位算法校正热力图误差,并设计了新的多点定位锚点损失,有效提升了所选锚点伪距的准确性,通过整合多个锚点进行定位,减少热力图预测误差的影响,避免算法得到局部最优解,从而提高关键点定位的精度。为了解决计算效率问题,论文提出了单步并行计算算法,大幅提升了计算效率,显著缩短了处理时间,以极低计算开销实现了优异性能。

 

图4. POPoS框架图


        论文《CoPEFT: Fast Adaptation Framework for Multi-Agent Collaborative Perception with Parameter-Efficient Fine-Tuning》(作者:Quanmin Wei, Penglin Dai, Wei Li, Bingyi Liu, Xiao Wu)以西南交通大学为第一署名单位,第一作者为博士生韦全敏,通讯作者为戴朋林副教授,与西南交通大学李威副教授、武汉理工大学刘冰艺教授和西南交通大学吴晓教授共同合作完成。协同感知是一种能够克服自动驾驶中单智能体感知局限性的强大范式,但面临着部署场景数据分布不一致的现实挑战。此外,现有的域自适应方法由于高昂的训练和数据收集成本,对于自动驾驶中资源受限的智能车辆而言,难以实现。本文提出了一种基于联合参数高效微调的快速适应框架(CoPEFT),该框架能够以可接受的成本快速将协同感知模型适应于新的部署场景。CoPEFT将适应问题解耦为宏观与微观适应子问题,并利用协同先验感知的协同适配器与智能体提示分别进行具体实现。通过多层次适应模块的相互增强,CoPEFT仅需更新1%的可学习参数即可实现最先进的协同3D目标检测性能,并将模型适应时间加速至少10倍。

 

图5. CoPEFT框架图


        论文《Clustering by Mining Density Distributions and Splitting Manifold Structure》(作者: Zhichang Xu, Zhiguo Long,Hua Meng)以西南交通大学为第一署名单位,第一作者为硕士生徐志昌,导师龙治国老师为通讯作者之一,与西南交通大学数学学院孟华副教授共同合作完成。最近,一种基于粒度计算的粒球模型被证明可以有效提升谱聚类的效率并取得较好的聚类效果。然而,由于该模型过于关注紧凑度而且忽略了数据的局部分布特征,在面对复杂结构数据时可能得到低质量或非凸的子簇,导致后续基于欧式距离的相似度刻画不再适用。因此,论文提出了一种新型的粗粒度表示加速谱聚类的方法(MDMSC),通过充分挖掘局部密度信息来更好地刻画数据的复杂局部特征,并引入了流形弯曲度来更好地进行子簇分裂,得到更高质量、更容易刻画相似度的子簇。在4个拟合数据集和13个真实数据集上的实验表明,MDMSC在提升谱聚类效率的同时,可以显著增强多种粒球聚类模型在复杂数据集上的性能。

 

图6. MDMSC框架图

 

        计算机与人工智能学院在计算机领域顶级国际会议的连续突破,尤其是2024年在KDD、WWW、SIGIR、ICLR、ACM MM、AAAI 等国际一流会议发表论文,反映出学院在“学科前沿与科技创新能力提升、培养新质生产力和聚焦战略性产业”的学校战略牵引下,在人工智能领域取得了重要进展。