X
 当前位置: > 首页 -> 学术活动
【优秀学术论文】我院2020级硕士研究生张文博在计算模拟及智能分析和可视化领域国际学术期刊《Complex & Intelligent Systems》发表高水平论文
分割线

我院2020级硕士研究生张文博(导师:崔振超)学术论文:Spatial–temporal transformer for end-to-end sign language recognition被计算模拟以及智能分析和可视化领域的国际学术期刊《Complex & Intelligent Systems》全文录用。

手语是听障人群的主要语言,全球有4.66亿人遭受听力影响,预计到2050年有近25亿人遭受听力损害。手语识别是为了识别和解释交互过程中手势含义的过程,不仅仅对听障人士的日常交流起到至关重要的作用,还可以在某些特定的社会场景提供帮助。本研究旨在探讨使用连续手语识别算法提高手语识别的准确性。为了解决手语视频的长期语义依赖问题,提出了一种基于Transformer的时空特征提取方法。该模型能够捕获视频帧的空间特征信息,同时关注连续帧的上下文语义信息。该模型能更有效地提取出丰富的手语特征,从而提高识别精度。本文的工作是在传统Transformer模型[41]的基础上,结合手语视频序列的特点进行网络设计。具体而言,我们针对手语视频帧的长序列,设计了一种分块操作,将手语视频映射成易于处理的序列,以方便模型学习和训练,并提出了用于端到端连续手语识别的时空Transformer模型,包含向量化模块、一个时空特征编码器和一个动态解码器。时空特征编码器可以区分时间和空间特征,注意力模块的一部分只关注时间维度上的上下文特征,另一部分提取视频帧的空间动态特征,通过这种设计,可以将不同头部的注意结果进行聚合,从而增强手语视频特征的提取。

Complex & Intelligent Systems》期刊由SPRINGER HEIDELBERG出版商出版,收稿方向涵盖COMPUTER SCIENCE, ARTIFICIAL INTELLIGENCE全领域,影响因子指数6.7,是JCR Q1SCI二区期刊。


Baidu
sogou