Распознавание голоса с использованием свёрточной нейронной сети
https://doi.org/10.35596/1729-7648-2023-21-2-114-120
Аннотация
Представлены подход, методология, программная система, основанные на свёрточной нейронной сети, для распознавания голоса (кашля) в условиях зашумленности с использованием технологий машинного обучения. Разработана и оценена система распознавания кашля на основе машинного обучения, использования свёрточной нейронной сети и библиотек языка Python. Свёрточная нейронная сеть протестирована с помощью различных наборов данных и библиотек. В отличие от существующих современных работ в этой области предложенная система оценивалась с применением реального набора звуковых данных окружающей среды, а не только отфильтрованных или разделенных звуковых параметров голоса. Окончательная скомпилированная модель показала относительно высокую среднюю точность – 85,37 %. Предлагаемая система способна распознавать звук голоса в многолюдном общественном месте, и нет необходимости в фазе разделения звука для предварительной обработки, как в других системах. Несколько добровольцев записали звуки своего голоса с помощью смартфонов. Затем они протестировали свои голоса в общественных местах на предмет шума в дополнение к некоторым аудиофайлам, которые были загружены онлайн. Результаты показали среднюю точность распознавания – 85,37 %, минимальную – 78,8 % и рекордную – 91,9 %.
Для цитирования:
Вишняков В.А., Шайя Б.Х. Распознавание голоса с использованием свёрточной нейронной сети. Доклады БГУИР. 2023;21(2):114-120. https://doi.org/10.35596/1729-7648-2023-21-2-114-120
For citation:
Vishniakou U.A., Shaya B.H. Voice Detection Using Convolutional Neural Network. Doklady BGUIR. 2023;21(2):114-120. https://doi.org/10.35596/1729-7648-2023-21-2-114-120