学院研究成果被多媒体顶级会议ACM MM 2025录用
学院4篇论文被国际顶级会议——第33届国际多媒体学术会议(ACM International Conference on Multimedia,简称ACM MM)录用,会议将于2025年10月27日至31日在爱尔兰都柏林举行。这四篇论文均是以西南交通大学为第一署名单位。在全球4672份有效投稿中,录用1251篇,录用率为26.6%。国际多媒体学术会议(ACM MM)是计算机学科公认的多媒体领域和计算机视觉领域的国际顶级会议,被中国计算机学会(CCF)列为A类会议。
论文《HOPNet: Learning Hand-Object-Person Interaction Network for Hand Contact State Detection》(作者:Wei Li, Yizhao Wan, Xiao Wu, Jianshuai Wang, Penglin Dai, Zhaoquan Yuan)以李威副教授为第一作者,吴晓教授为通讯作者。手部接触状态检测(HCSD)在人机交互等领域应用广泛,但现有方法在面对拥挤、多人交互的复杂场景时仍面临挑战。在此类场景中,存在因频繁遮挡和忽略人际关系线索而导致的接触状态识别困难。论文提出了新颖的手-物-人交互网络HOPNet,如图1所示。通过分别对“手-物”交互和“手-人”交互进行显式建模,以增强模型的检测能力。其核心在于双路径架构:手-物关系(HOR)模块用以分析手与物体间的交互模式,对比空间优化(CSR)模块通过学习手与身体的几何及空间关系,解决拥挤场景下的人际接触识别难题。实验表明,HOPNet在ContactHands和100DOH两个公开基准数据集上的性能超越了现有最优方法,有力验证了其在解决复杂交互挑战时的有效性。
图1 手-物-人交互网络HOPNet
论文《Latent Interactiveness Field for Non-Contact Human Object Interaction Detection》(作者:Xiang Huang, Ao Luo, Xiao Wu, Zhaoquan Yuan)以博士生黄翔为第一作者,吴晓教授为通讯作者。人-物交互(HOI)检测被广泛应用于多个领域,尽管已经取得显著进展,但现有方法在面对非接触式人-物交互(NCHOI)场景时仍面临挑战。在此类场景中,人与物体间存在一定距离,存在着上下文信息建模困难以及多实例关联错误的挑战。论文提出了潜在交互场建模(LIFM)方法,如图2所示。通过捕获远距离的上下文依赖以增强人-物交互检测能力。其核心在于提出了潜在交互场(LIF),它以统一的方式定义了人与物体之间的潜在交互关系,构建了交互可能性的空间模型。为了系统地检验现有HOI检测方法在实际的非接触场景下的性能,论文还提出了 Mobile Scanning HOI Dataset (MSHD)数据集。实验表明,LIFM超越现有最优方法,尤其在NCHOI场景实现显著性能提升,表明其在有效缓解了长距离交互所带来的挑战。

图2 基于潜在交互场的非接触式人-物交互
论文《DualEnhance: External Multimodal Foundation Models Guidance and Internal Fast-Slow Teacher Regulation》 (作者:Qi He, Xiao Wu, Jun-Yan He, Wei Li, Zhaoquan Yuan)以博士生何琦为第一作者,吴晓教授为通讯作者。无源域自适应目标检测旨在不访问源数据的情况下,能在无标记目标域上进行跨域目标检测。现有方法利用均值教师实现自学习。它们的性能因递归师生更新产生的噪声伪标签的误差累积而出现瓶颈。为解决这个问题,本文提出双重增强,如图3所示。(1)通过多模态基础模型进行外部指导:提出双向蒸馏策略,即反向蒸馏通过从源检测器转移来的特定任务先验来校准FMs,而正向蒸馏通过生成高质量伪标签来传递对齐的跨模态知识;(2)通过快慢教师进行内部调节:提出双速度知识巩固的快-慢教师。快教师动态捕捉新兴领域特征以实现伪标签精化,慢教师保留稳定的历史知识并通过参数同步周期性重置快教师,建立纠错动态平衡。实验表明,所提出方法在三个基准上取得了显著的改进。

图3 基于多模态基础模型外部指导及快慢教师内部调节的双重增强架构
论文《Why is a Bird’s Caption a Good Demonstration? Towards Effective Multimodal In-Context Learning without Dedicated Data》(作者:Junlin Fang, Wenya Wang, Lingli Zhang, Fengmao Lv),硕士生方俊麟为第一作者,吕凤毛副教授为通讯作者,与南洋理工大学合作完成。论文提出了非定制数据下的多模态上下文学习框架,如图4所示。首先使用非定制数据探索多模态上下文学习(MICL)的有效性。通过对17个数据集和5个最先进的MLLM的系统评估,论文证明了与零射击评估相比,MICL的性能有显著提高。为了更彻底地理解这一现象背后的潜在原因,论文验证了两个假设:1)多模态演示促进跨模态交互;2)演示提供可转移的知识。在这些见解的基础上,探讨了影响MICL的因素,并得出了几个关键结论。为了解决现有检索方法的局限性,提出了基于快速最大平均差异检索度量和语义模态关系感知检索度量,分别用于数据集间和数据集内检索。此外,论文发现增加演示、组合来自不同数据集的演示以及为查询样本提供说明可以进一步提高MICL。

图4 非定制数据下的多模态上下文学习框架
相关文章
“计”绘苍穹,“智”领未来 | 学院完成2025级学生迎新工作
……
英国利兹大学代表团访问西南交通大学共话国际科研合作新蓝图
2025 年 8 月 4 日至5日,英国利兹大学Jie Xu教授率领代表团莅临西南交通大学访问交流。此次访问旨在深化两校在科研领域的合作,为共建国际科研平台奠定坚实基础。 8月4日,在西南交大-利兹大学国际……
学院研究成果被多媒体顶级会议ACM MM 2025录用
学院4篇论文被国际顶级会议——第33届国际多媒体学术会议(ACM International Conference on Multimedia,简称ACM MM)录用,会议将于2025年10月27日至31日在爱尔兰都柏林举行……