Нейронная сеть на основе сверточных, рекуррентных слоев и механизма внимания для визуального распознавания речи
https://doi.org/10.35596/1729-7648-2026-24-1-75-82
Аннотация
Визуальное распознавание речи представляет собой задачу классификации произносимых слов или букв по видеопотоку, фиксирующему движения губ. В статье представлены синтез и исследование нейросетевой архитектуры для визуального распознавания речи на основе комбинации сверточных и рекуррентных нейронных сетей с механизмом внимания. Обучение и оценка модели проводились на базе данных AVLetters2 в наиболее сложном дикторонезависимом режиме. Архитектура модели включает кодировщик на основе сверточных слоев для извлечения пространственных признаков, рекуррентные слои на основе блоков GRU для моделирования временных зависимостей и механизм внимания для выделения информативных фрагментов речевой последовательности. Для оценки точности модели проведена пятикратная перекрестная проверка. Подбор гиперпараметров модели осуществлялся на основе байесовской оптимизации, позволившей определить оптимальную конфигурацию параметров модели и процесса обучения. В результате проведенных экспериментов достигнута средняя точность распознавания 14,3 %. Анализ результатов выявил значительную вариативность качества распознавания в зависимости от характеристик дикторов (точность составила от 3,9 до 31,9 %), что указывает на необходимость дальнейшего повышения инвариантности модели к междикторским различиям.
Об авторах
Д. А. МакарБеларусь
асп. каф. электронных вычислительных средств
Минск
М. И. Вашкевич
Беларусь
Вашкевич Максим Иосифович - д-р техн. наук, проф. каф. электронных вычислительных средств
220013, Минск, ул. П. Бровки, 6
Тел.: +375 17 293-84-20
Список литературы
1. The Challenge of Multispeaker Lip-Reading / S. Cox [et al.] // International Conference on Auditory-Visual Speech Processing. 2008. P. 179–184.
2. Extraction of Visual Features for Lipreading / I. Matthews [et al.] // IEEE Transactions on Pattern Analysis and Machine Intelligence. 2002. Vol. 24, No 2. P. 198–213.
3. Николенко, С. Глубокое обучение. Погружение в мир нейронных сетей / С. Николенко, A. Кадурин, E. Архангельская. СПб.: Питер, 2020.
4. Lip Reading Sentences in the Wild / S. J. Chung [et al.] // Conference on Computer Vision and Pattern Recognition. 2017. https://doi.org/10.48550/arXiv.1611.05358.
5. Cheng, J. Long Short-Term Memory-Networks for Machine Reading / J. Cheng, L. Dong, M. Lapata // EMNLP 2016 Conference. https://doi.org/10.48550/arXiv.1601.06733.
6. Pei, Y. Unsupervised Random Forest Manifold Alignment for Lipreading / Y. Pei, T.-K. Kim, H. Zha // IEEE International Conference on Computer Vision. 2013. P. 129–136.
7. End-to-End Visual Speech Recognition for Small-Scale Datasets / S. Petridis [et al.] // Pattern Recognition Letters. 2020. P. 131, 421–427. https://doi.org/10.48550/arXiv.1904.01954.
Рецензия
Для цитирования:
Макар Д.А., Вашкевич М.И. Нейронная сеть на основе сверточных, рекуррентных слоев и механизма внимания для визуального распознавания речи. Доклады БГУИР. 2026;24(1):75-82. https://doi.org/10.35596/1729-7648-2026-24-1-75-82
For citation:
Makar D., Vashkevich M. Neural Network Based on Convolutional, Recurrent Layers and an Attention Mechanism for Visual Speech Recognition. Doklady BGUIR. 2026;24(1):75-82. (In Russ.) https://doi.org/10.35596/1729-7648-2026-24-1-75-82
JATS XML























