Метод распознавания эмоций в речевом сигнале с использованием машины опорных векторов и надсегментных акустических признаков
https://doi.org/10.35596/1729-7648-2024-22-3-93-100
Аннотация
Исследована задача распознавания эмоций в речевом сигнале с использованием мел-частотных кепстральных коэффициентов при помощи классификатора на основе метода опорных векторов. При проведении экспериментов применялся набор данных RAVDESS. Предложена модель, которая использует 306-компонентный вектор надсегментных признаков в качестве входных данных для классификатора на основе метода опорных векторов. Оценка качества модели проводилась с помощью невзвешенного среднего значения полноты (UAR). Рассмотрено применение в классификаторе на основе метода опорных векторов в качестве ядра линейной, полиномиальной и радиальной базисной функций. Исследовано использование разных размеров фрейма анализа сигнала (от 23 до 341 мс) на этапе извлечения мел-частотных кепстральных коэффициентов. Результаты исследований выявили значительную точность полученной модели (UAR = 48 %). Предлагаемый подход демонстрирует потенциал для таких приложений, как голосовые помощники, виртуальные агенты и диагностика психического здоровья.
Об авторах
Д. В. КраснопрошинБеларусь
магистрант каф. электронных вычислительных средств
220013, г. Минск, ул. П. Бровки, 6
М. И. Вашкевич
Беларусь
Вашкевич Максим Иосифович, д-р техн. наук, проф. каф. электронных вычислительных средств
220013, г. Минск, ул. П. Бровки, 6
Тел.: +375 17 293-84-78
Список литературы
1. Issa D., Demirci F. M., Yazici A. (2020) Speech Emotion Recognition with Deep Convolutional Neural Networks. Biomedical Signal Processing and Control. 59.
2. Luna-Jiménez C., Griol D., Callejas Z., Kleinlein R., Montero J. M., Fernández-Martэínez F. (2021) Multimodal Emotion Recognition on RAVDESS Dataset Using Transfer Learning. Sensors. 21 (22), 1–29.
3. Xiao H., Li W., Zeng G., Wu Y., Xue J., Zhang J., [et al.] (2022) On-Road Driver Emotion Recognition Using Facial Expression. Appl. Sci. 12 .
4. Sadok S., Leglaive S., Séguier R. (2023) A Vector Quantized Masked Autoencoder for Speech Emotion Recognition. arXiv preprint arXiv. 2304.
5. Bhavan A., Chauhan P., Shah R. R. (2019) Bagged Support Vector Machines for Emotion Recognition from Speech. Knowledge-Based Systems . 184, 1–7.
6. Baruah M., Banerjee B. (2022) Speech Emotion Recognition via Generation Using an Attention-Based Variational Recurrent Neural Network. Proc. Interspeech. 4710–4714.
7. Yu C., Tian Q., Cheng F., Zhang S. (2011) Speech Emotion Recognition Using Support Vector Machines. Advanced Research on Computer Science and Information Engineering. Communications in Computer and Information Science. 152.
8. Huang X., Acero A., Hon H.-W., Foreword By-Reddy R. (2001) Spoken Language Processing: A Guide to Theory, Algorithm, and System Development. Prentice Hall PTR.
9. Hastie T., Tibshirani R., Friedman J. H., Friedman J. H. (2009) The Elements of Statistical Learning: Data Mining, Inference, and Prediction. Springer.
10. On C. K., Pandiyan P. M., Yaacob S., Saudi A. (2006) Mel-Frequency Cepstral Coefficient Analysis in Speech Recognition. In 2006 International Conference on Computing & Informatics. 1–5.
11. Livingstone S. R., Russo F. A. (2018) The Ryerson Audio-Visual Database of Emotional Speech and Song (RAVDESS): A Dynamic, Multimodal Set of Facial and Vocal Expressions in North American English. PloS One. 13 (5).
12. Luna-Jiménez C., Griol D., Callejas Z., Kleinlein R., Montero J. M., Fernández-Martínez F. (2021) Multimodal Emotion Recognition on RAVDESS Dataset Using Transfer Learning. Sensors. 21.
Рецензия
Для цитирования:
Краснопрошин Д.В., Вашкевич М.И. Метод распознавания эмоций в речевом сигнале с использованием машины опорных векторов и надсегментных акустических признаков. Доклады БГУИР. 2024;22(3):93-100. https://doi.org/10.35596/1729-7648-2024-22-3-93-100
For citation:
Krasnoproshin D.V., Vashkevich M.I. Speech Emotion Recognition Method Based on Support Vector Machine and Suprasegmental Acoustic Features. Doklady BGUIR. 2024;22(3):93-100. (In Russ.) https://doi.org/10.35596/1729-7648-2024-22-3-93-100