计算机学院2篇论文被国际顶级会议ACM Multimedia 2021录用
计算机与人工智能学院有2篇论文被国际顶级会议——第29届国际多媒体学术会议(ACM International Conference on Multimedia,简称ACM MM)录用。这两篇论文均是以西南交通大学为第一署名单位。在全球1942篇投稿中,542篇论文被录用,接收率为27.9%。国际多媒体学术会议(ACM MM)是计算机学科公认的多媒体领域和计算机视觉领域的国际顶级会议,被中国计算机学会(CCF)列为A类会议,在我校期刊分级目录中列为A++级别。在教育部第四轮学科评估中,CCF A类会议论文被列为重要的论文发表指标项。这是我校计算机学科自2016年以来,连续六年在ACM MM发表高水平论文,标志着我校在人工智能和计算机视觉领域的研究成果得到了国际同行的认可。
车辆目标计数是当前计算机视觉领域的前沿研究之一,由于受尺度变化、位置分布不一致、视觉表观多样化等多种因素影响,该任务极具挑战性。计算机与人工智能学院博士生张基为第一作者,吴晓教授为通讯作者,博士生乔建军和李威老师共同完成的论文《Vehicle Counting Network with Attention-based Mask Refinement and Spatial-awareness Block Loss》提出了一种基于细粒度注意力掩码和空间感知损失的车辆计数网络(VCNet)来解决所述难点。论文采用了多分支混合空洞卷积块结构,生成包含不同尺度信息的高质量密度图。同时,设计了一种能够感知不同位置空间分布的损失函数来提高模型的空间感知能力。该方法在多个公开车辆计数数据集上取得了最优的计数结果,有效缓解了拥挤交通场景中车辆尺度、视觉信息变化剧烈和空间分布不一致的难题。

图表1 基于细粒度注意力掩码和空间感知损失的车辆计数网络架构图
视觉问答系统是视觉-语言结合的研究热点之一。计算机与人工智能学院袁召全老师为第一作者,吴晓教授为通讯作者,硕士生彭潇以及我校兼职教授徐常胜共同完成的论文《Hierarchical Multi-Task Learning for Diagram Question Answering with Multi-Modal Transformer》提出了一种新颖的基于多模态Transformer框架的层级多任务学习(HMTL)模型。相对于自然图片的问答,插图问答(Diagram QA)任务需要对视觉插图和文本问答语句进行联合的语义理解与推理,是一项具有挑战性的研究课题。现有的独立两阶段方法受限于低效率的反馈机制而不能实现端到端的参数学习。在提出的HMTL中,图结构化解析和问答这两个任务采用不同的Transformer模块,并处于不同的语义层级,从而形成层次结构。结构解析模块对插图中的成分及其关系进行编码,问答模块则对结构化信号进行解码并结合问答语句来推断正确的答案。视觉的图解析与文本问答在多模态Transformer中相互作用,从而实现跨模态的语义理解和推理。实验证明,论文提出的HMTL模型对插图问答任务具有有效性,并在公开数据集上达到当前最优性能。

图表2 基于层级多任务学习的图表问答系统架构图
计算机与人工智能学院在计算机领域国际会议的连续突破,反映出学院在“智能引领、交叉融合”的战略牵引下,在科研创新、扩大国际影响力、开拓国际视野等方面取得了重要进展。
相关文章
百卅校庆系列学术论坛:看人工智能如何赋能先进技术(一)
人工智能“生态”下,如何赋能先进技术?2026年4月2日,计算机人工智能学院系列学术论坛暨130周年校庆系列学术活动在犀浦校区3号教学楼30820会议室举行。学校先进技术与装备研究院副院长(主持工作)蔡振兵教授和学院冯力研究……
李天瑞教授团队博士后两篇论文在人工智能顶级期刊IEEE TPAMI发表
近日,李天瑞教授团队博士后2篇论文被国际顶级期刊IEEE Transactions on Pattern Analysis and Machine Intelligence(TPAMI)录用。TPAMI是人工智能、机器学习与……
人力资源部来院进行“专任教师职业能力提升体系建设”专题调研
为深入推进人才强校核心战略,着力构建高素质专业化教师队伍,精准对接教师成长需求,推动教师职业发展与学校事业发展同频共振,2026年3月24日下午人力资源部朱宗涛副部长、职工管理科徐勤科长、石珮锦副科长一行莅临我院就“专任教师……