Preview

Доклады БГУИР

Расширенный поиск

Распознавание голоса с использованием свёрточной нейронной сети

https://doi.org/10.35596/1729-7648-2023-21-2-114-120

Аннотация

Представлены подход, методология, программная система, основанные на свёрточной нейронной сети, для распознавания голоса (кашля) в условиях зашумленности с использованием технологий машинного обучения. Разработана и оценена система распознавания кашля на основе машинного обучения, использования свёрточной нейронной сети и библиотек языка Python. Свёрточная нейронная сеть протестирована с помощью различных наборов данных и библиотек. В отличие от существующих современных работ в этой области предложенная система оценивалась с применением реального набора звуковых данных окружающей среды, а не только отфильтрованных или разделенных звуковых параметров голоса. Окончательная скомпилированная модель показала относительно высокую среднюю точность – 85,37 %. Предлагаемая система способна распознавать звук голоса в многолюдном общественном месте, и нет необходимости в фазе разделения звука для предварительной обработки, как в других системах. Несколько добровольцев записали звуки своего голоса с помощью смартфонов. Затем они протестировали свои голоса в общественных местах на предмет шума в дополнение к некоторым аудиофайлам, которые были загружены онлайн. Результаты показали среднюю точность распознавания – 85,37 %, минимальную – 78,8 % и рекордную – 91,9 %. 

Для цитирования:


Вишняков В.А., Шайя Б.Х. Распознавание голоса с использованием свёрточной нейронной сети. Доклады БГУИР. 2023;21(2):114-120. https://doi.org/10.35596/1729-7648-2023-21-2-114-120

For citation:


Vishniakou U.A., Shaya B.H. Voice Detection Using Convolutional Neural Network. Doklady BGUIR. 2023;21(2):114-120. https://doi.org/10.35596/1729-7648-2023-21-2-114-120

Просмотров: 676


Creative Commons License
Контент доступен под лицензией Creative Commons Attribution 4.0 License.


ISSN 1729-7648 (Print)
ISSN 2708-0382 (Online)