Preview

Доклады БГУИР

Расширенный поиск

Распознавание голоса с использованием свёрточной нейронной сети

https://doi.org/10.35596/1729-7648-2023-21-2-114-120

Аннотация

Представлены подход, методология, программная система, основанные на свёрточной нейронной сети, для распознавания голоса (кашля) в условиях зашумленности с использованием технологий машинного обучения. Разработана и оценена система распознавания кашля на основе машинного обучения, использования свёрточной нейронной сети и библиотек языка Python. Свёрточная нейронная сеть протестирована с помощью различных наборов данных и библиотек. В отличие от существующих современных работ в этой области предложенная система оценивалась с применением реального набора звуковых данных окружающей среды, а не только отфильтрованных или разделенных звуковых параметров голоса. Окончательная скомпилированная модель показала относительно высокую среднюю точность – 85,37 %. Предлагаемая система способна распознавать звук голоса в многолюдном общественном месте, и нет необходимости в фазе разделения звука для предварительной обработки, как в других системах. Несколько добровольцев записали звуки своего голоса с помощью смартфонов. Затем они протестировали свои голоса в общественных местах на предмет шума в дополнение к некоторым аудиофайлам, которые были загружены онлайн. Результаты показали среднюю точность распознавания – 85,37 %, минимальную – 78,8 % и рекордную – 91,9 %. 

Об авторах

В. А. Вишняков
Белорусский государственный университет информатики и радиоэлектроники
Беларусь

Минск



Б. Х. Шайя
Белорусский государственный университет информатики и радиоэлектроники
Беларусь

Минск



Список литературы

1. Shakel N. V., Ablameyko M. S. (2020) Medical Worker and Patient: Interaction in the Context of E-Health. Minsk, Eco-Perspective Publ. (in Russian).

2. Alqudaihi K. S., Aslam N., Khan I. U. [et al.] (2021) Cough Sound Detection and Diagnosis Using Artificial Intelligence Techniques: Challenges and Opportunities. IEEE Public Health Emergency Collection. 9, 102327–102344.

3. Amoh J., Odame K. (2016) Deep Neural Networks for Identifying Cough Sounds. IEEE Transactions on Biomedical Circuits and Systems. 10 (5), 1003–1011.

4. Gong Y., Lai C.-I. J., Chung Y.-A., Glass J. (2021) SSAST: Self-Supervised Audio Spectrogram Transformer. Applied Science. 570–575.

5. Nanni L., Maguolo G., Brahnam S., Paci M. (2021) An Ensemble of Convolutional Neural Networks for Audio Classification. Applied Science. 57–76.

6. Chowdhury A., Ross A. (2019) Fusing MFCC and LPC Features using 1D Triplet CNN for Speaker Recognition in Severely Degraded Audio Signals. IEEE Transactions on Information Forensics and Security. 15, 1616–1629.

7. Visniakou U. A., Shaya B. H. (2022) Implementation of the Internet of Things Network for Monitoring Audio Information on a Microprocessor and Controller. System Analysis and Application Informatics. (1), 39–44.


Рецензия

Для цитирования:


Вишняков В.А., Шайя Б.Х. Распознавание голоса с использованием свёрточной нейронной сети. Доклады БГУИР. 2023;21(2):114-120. https://doi.org/10.35596/1729-7648-2023-21-2-114-120

For citation:


Vishniakou U.A., Shaya B.H. Voice Detection Using Convolutional Neural Network. Doklady BGUIR. 2023;21(2):114-120. https://doi.org/10.35596/1729-7648-2023-21-2-114-120

Просмотров: 425


Creative Commons License
Контент доступен под лицензией Creative Commons Attribution 4.0 License.


ISSN 1729-7648 (Print)
ISSN 2708-0382 (Online)