基于Transformer-LSTM的闽南语唇语识别

被引:0
|
作者
曾蔚 [1 ,2 ,3 ]
罗仙仙 [1 ,2 ,3 ]
王鸿伟 [1 ,2 ,3 ]
机构
[1] 泉州师范学院数学与计算机科学学院
[2] 福建省大数据管理新技术与知识工程重点实验室
[3] 智能计算与信息处理福建省高等学校重点实验室
关键词
唇语识别; 闽南语; Transformer; 长短时记忆网络(LSTM); 用时空卷积神经网络; 注意力机制; 端到端模型;
D O I
10.16125/j.cnki.1009-8224.2024.02.001
中图分类号
H177.2 [闽南语]; TP391.41 [];
学科分类号
0501 ; 050103 ; 080203 ;
摘要
针对端到端句子级闽南语唇语识别的问题,提出一种基于Transformer和长短时记忆网络(LSTM)的编解码模型.编码器采用时空卷积神经网络及Transformer编码器用于提取唇读序列时空特征,解码器采用长短时记忆网络并结合交叉注意力机制用于文本序列预测.最后,在自建闽南语唇语数据集上进行实验.实验结果表明:模型能有效地提高唇语识别的准确率.
引用
收藏
页码:10 / 17
页数:8
相关论文
共 9 条
  • [1] 基于时域卷积网络的中文句子级唇语识别算法
    刘培培
    贾静平
    [J]. 计算机应用研究, 2023, 40 (09) : 2596 - 2602
  • [2] 基于端到端句子级别的中文唇语识别研究
    张晓冰
    龚海刚
    杨帆
    戴锡笠
    [J]. 软件学报, 2020, 31 (06) : 1747 - 1760
  • [3] 高安全性人脸识别系统中的唇语识别算法研究
    任玉强
    田国栋
    周祥东
    吕江靖
    周曦
    [J]. 计算机应用研究, 2017, 34 (04) : 1221 - 1225
  • [4] 基于深度学习的句子级别唇语识别的研究[D] 杨添 合肥工业大学 2022,
  • [5] 基于深度学习的藏语唇语识别研究[D] 曾浩 西北师范大学 2021,
  • [6] Understanding Pictograph with Facial Features: End-to-End Sentence-Level Lip Reading of Chinese[J] Xiaobing Zhang;Haigang Gong;Xili Dai;Fan Yang;Nianbo Liu;Ming Liu Proceedings of the AAAI Conference on Artificial Intelligence 2019,
  • [7] 3D convolutional neural networks for human action recognition.[J] Ji Shuiwang;Yang Ming;Yu Kai IEEE transactions on pattern analysis and machine intelligence 2013,
  • [8] Audiovisual integration and lipreading abilities of older adults with normal and impaired hearing.[J] Tye-Murray Nancy;Sommers Mitchell S;Spehar Brent Ear and hearing 2007,
  • [9] "活化石"的由来 泉州市旅游局; http://www.quanzhou.gov.cn/lyb/lswh/mnfy/201609/t20160913_372309.htm 2016,