Preview

Доклады БГУИР

Расширенный поиск

Нейронная сеть на основе сверточных, рекуррентных слоев и механизма внимания для визуального распознавания речи

https://doi.org/10.35596/1729-7648-2026-24-1-75-82

Аннотация

Визуальное распознавание речи представляет собой задачу классификации произносимых слов или букв по видеопотоку, фиксирующему движения губ. В статье представлены синтез и исследование нейросетевой архитектуры для визуального распознавания речи на основе комбинации сверточных и рекуррентных нейронных сетей с механизмом внимания. Обучение и оценка модели проводились на базе данных AVLetters2 в наиболее сложном дикторонезависимом режиме. Архитектура модели включает кодировщик на основе сверточных слоев для извлечения пространственных признаков, рекуррентные слои на основе блоков GRU для моделирования временных зависимостей и механизм внимания для выделения информативных фрагментов речевой последовательности. Для оценки точности модели проведена пятикратная перекрестная проверка. Подбор гиперпараметров модели осуществлялся на основе байесовской оптимизации, позволившей определить оптимальную конфигурацию параметров модели и процесса обучения. В результате проведенных экспериментов достигнута средняя точность распознавания 14,3 %. Анализ результатов выявил значительную вариативность качества распознавания в зависимости от характеристик дикторов (точность составила от 3,9 до 31,9 %), что указывает на необходимость дальнейшего повышения инвариантности модели к междикторским различиям.

Об авторах

Д. А. Макар
Белорусский государственный университет информатики и радиоэлектроники
Беларусь

асп. каф. электронных вычислительных средств

Минск



М. И. Вашкевич
Белорусский государственный университет информатики и радиоэлектроники
Беларусь

Вашкевич Максим Иосифович - д-р техн. наук, проф. каф. элект­ронных вычислительных средств

220013, Минск, ул. П. Бровки, 6

Тел.: +375 17 293-84-20 



Список литературы

1. The Challenge of Multispeaker Lip-Reading / S. Cox [et al.] // International Conference on Auditory-Visual Speech Processing. 2008. P. 179–184.

2. Extraction of Visual Features for Lipreading / I. Matthews [et al.] // IEEE Transactions on Pattern Analysis and Machine Intelligence. 2002. Vol. 24, No 2. P. 198–213.

3. Николенко, С. Глубокое обучение. Погружение в мир нейронных сетей / С. Николенко, A. Кадурин, E. Архангельская. СПб.: Питер, 2020.

4. Lip Reading Sentences in the Wild / S. J. Chung [et al.] // Conference on Computer Vision and Pattern Recognition. 2017. https://doi.org/10.48550/arXiv.1611.05358.

5. Cheng, J. Long Short-Term Memory-Networks for Machine Reading / J. Cheng, L. Dong, M. Lapata // EMNLP 2016 Conference. https://doi.org/10.48550/arXiv.1601.06733.

6. Pei, Y. Unsupervised Random Forest Manifold Alignment for Lipreading / Y. Pei, T.-K. Kim, H. Zha // IEEE International Conference on Computer Vision. 2013. P. 129–136.

7. End-to-End Visual Speech Recognition for Small-Scale Datasets / S. Petridis [et al.] // Pattern Recognition Letters. 2020. P. 131, 421–427. https://doi.org/10.48550/arXiv.1904.01954.


Рецензия

Для цитирования:


Макар Д.А., Вашкевич М.И. Нейронная сеть на основе сверточных, рекуррентных слоев и механизма внимания для визуального распознавания речи. Доклады БГУИР. 2026;24(1):75-82. https://doi.org/10.35596/1729-7648-2026-24-1-75-82

For citation:


Makar D., Vashkevich M. Neural Network Based on Convolutional, Recurrent Layers and an Attention Mechanism for Visual Speech Recognition. Doklady BGUIR. 2026;24(1):75-82. (In Russ.) https://doi.org/10.35596/1729-7648-2026-24-1-75-82

Просмотров: 209

JATS XML


Creative Commons License
Контент доступен под лицензией Creative Commons Attribution 4.0 License.


ISSN 1729-7648 (Print)
ISSN 2708-0382 (Online)