计算机学院2篇论文被国际顶级会议ACM Multimedia 2021录用
计算机与人工智能学院有2篇论文被国际顶级会议——第29届国际多媒体学术会议(ACM International Conference on Multimedia,简称ACM MM)录用。这两篇论文均是以西南交通大学为第一署名单位。在全球1942篇投稿中,542篇论文被录用,接收率为27.9%。国际多媒体学术会议(ACM MM)是计算机学科公认的多媒体领域和计算机视觉领域的国际顶级会议,被中国计算机学会(CCF)列为A类会议,在我校期刊分级目录中列为A++级别。在教育部第四轮学科评估中,CCF A类会议论文被列为重要的论文发表指标项。这是我校计算机学科自2016年以来,连续六年在ACM MM发表高水平论文,标志着我校在人工智能和计算机视觉领域的研究成果得到了国际同行的认可。
车辆目标计数是当前计算机视觉领域的前沿研究之一,由于受尺度变化、位置分布不一致、视觉表观多样化等多种因素影响,该任务极具挑战性。计算机与人工智能学院博士生张基为第一作者,吴晓教授为通讯作者,博士生乔建军和李威老师共同完成的论文《Vehicle Counting Network with Attention-based Mask Refinement and Spatial-awareness Block Loss》提出了一种基于细粒度注意力掩码和空间感知损失的车辆计数网络(VCNet)来解决所述难点。论文采用了多分支混合空洞卷积块结构,生成包含不同尺度信息的高质量密度图。同时,设计了一种能够感知不同位置空间分布的损失函数来提高模型的空间感知能力。该方法在多个公开车辆计数数据集上取得了最优的计数结果,有效缓解了拥挤交通场景中车辆尺度、视觉信息变化剧烈和空间分布不一致的难题。

图表1 基于细粒度注意力掩码和空间感知损失的车辆计数网络架构图
视觉问答系统是视觉-语言结合的研究热点之一。计算机与人工智能学院袁召全老师为第一作者,吴晓教授为通讯作者,硕士生彭潇以及我校兼职教授徐常胜共同完成的论文《Hierarchical Multi-Task Learning for Diagram Question Answering with Multi-Modal Transformer》提出了一种新颖的基于多模态Transformer框架的层级多任务学习(HMTL)模型。相对于自然图片的问答,插图问答(Diagram QA)任务需要对视觉插图和文本问答语句进行联合的语义理解与推理,是一项具有挑战性的研究课题。现有的独立两阶段方法受限于低效率的反馈机制而不能实现端到端的参数学习。在提出的HMTL中,图结构化解析和问答这两个任务采用不同的Transformer模块,并处于不同的语义层级,从而形成层次结构。结构解析模块对插图中的成分及其关系进行编码,问答模块则对结构化信号进行解码并结合问答语句来推断正确的答案。视觉的图解析与文本问答在多模态Transformer中相互作用,从而实现跨模态的语义理解和推理。实验证明,论文提出的HMTL模型对插图问答任务具有有效性,并在公开数据集上达到当前最优性能。

图表2 基于层级多任务学习的图表问答系统架构图
计算机与人工智能学院在计算机领域国际会议的连续突破,反映出学院在“智能引领、交叉融合”的战略牵引下,在科研创新、扩大国际影响力、开拓国际视野等方面取得了重要进展。
相关文章
滇西应用技术大学测绘与信息工程学院到学院调研交流
为深化校际合作、推动学科建设与人才培养协同发展,4月23日上午,滇西应用技术大学测绘与信息工程学院代表团一行莅临西南交通大学计算机与人工智能学院,开展专题调研交流活动。西南交通大学计算机与人工智能学院党委书记翟东海、副院长龚……
全力护航,充分就业 | 学院召开2026届毕业生就业专项部署会
为深入学习贯彻习近平总书记给四所交通大学全体师生重要回信精神,全面落实教育部、省教育厅及学校关于高校毕业生就业工作部署要求,扎实做好2026届毕业生就业服务与帮扶工作,4月16日下午,学院在犀浦校区召开2026届毕业生就业工作……
迎130华诞 聚AI力量 ——中国人工智能学会走进西南交通大学
4月19日,在西南交通大学130周年华诞即将来临之际, “中国人工智能学会走进西南交通大学”系列活动在东部(国际)校区成功举办。 本次活动由计算机与人工智能学院主办,东部(国际)校区管委会、西南交大-利兹学院、……