Метод распознавания эмоций в речевом сигнале с использованием машины опорных векторов и надсегментных акустических признаков

Д. В. Краснопрошин; М. И. Вашкевич

doi:10.35596/1729-7648-2024-22-3-93-100

Метод распознавания эмоций в речевом сигнале с использованием машины опорных векторов и надсегментных акустических признаков

Д. В. Краснопрошин, М. И. Вашкевич

https://doi.org/10.35596/1729-7648-2024-22-3-93-100

Полный текст:

PDF (Rus)

сгенерировать QR код

Аннотация

Исследована задача распознавания эмоций в речевом сигнале с использованием мел-частотных кепстральных коэффициентов при помощи классификатора на основе метода опорных векторов. При проведении экспериментов применялся набор данных RAVDESS. Предложена модель, которая использует 306-компонентный вектор надсегментных признаков в качестве входных данных для классификатора на основе метода опорных векторов. Оценка качества модели проводилась с помощью невзвешенного среднего значения полноты (UAR). Рассмотрено применение в классификаторе на основе метода опорных векторов в качестве ядра линейной, полиномиальной и радиальной базисной функций. Исследовано использование разных размеров фрейма анализа сигнала (от 23 до 341 мс) на этапе извлечения мел-частотных кепстральных коэффициентов. Результаты исследований выявили значительную точность полученной модели (UAR = 48 %). Предлагаемый подход демонстрирует потенциал для таких приложений, как голосовые помощники, виртуальные агенты и диагностика психического здоровья.

Ключевые слова

голосовой сигнал, мел-частотные кепстральные коэффициенты, извлечение аудиопризнаков, распознавание, машинное обучение

Об авторах

Д. В. Краснопрошин

Белорусский государственный университет информатики и радиоэлектроники
Беларусь

магистрант каф. электронных вычислительных средств

220013, г. Минск, ул. П. Бровки, 6

М. И. Вашкевич

Белорусский государственный университет информатики и радиоэлектроники
Беларусь

Вашкевич Максим Иосифович, д-р техн. наук, проф. каф. электронных вычислительных средств

220013, г. Минск, ул. П. Бровки, 6

Тел.: +375 17 293-84-78

Список литературы

1. Issa D., Demirci F. M., Yazici A. (2020) Speech Emotion Recognition with Deep Convolutional Neural Networks. Biomedical Signal Processing and Control. 59.

2. Luna-Jiménez C., Griol D., Callejas Z., Kleinlein R., Montero J. M., Fernández-Martэínez F. (2021) Multimodal Emotion Recognition on RAVDESS Dataset Using Transfer Learning. Sensors. 21 (22), 1–29.

3. Xiao H., Li W., Zeng G., Wu Y., Xue J., Zhang J., [et al.] (2022) On-Road Driver Emotion Recognition Using Facial Expression. Appl. Sci. 12 .

4. Sadok S., Leglaive S., Séguier R. (2023) A Vector Quantized Masked Autoencoder for Speech Emotion Recognition. arXiv preprint arXiv. 2304.

5. Bhavan A., Chauhan P., Shah R. R. (2019) Bagged Support Vector Machines for Emotion Recognition from Speech. Knowledge-Based Systems . 184, 1–7.

6. Baruah M., Banerjee B. (2022) Speech Emotion Recognition via Generation Using an Attention-Based Variational Recurrent Neural Network. Proc. Interspeech. 4710–4714.

7. Yu C., Tian Q., Cheng F., Zhang S. (2011) Speech Emotion Recognition Using Support Vector Machines. Advanced Research on Computer Science and Information Engineering. Communications in Computer and Information Science. 152.

8. Huang X., Acero A., Hon H.-W., Foreword By-Reddy R. (2001) Spoken Language Processing: A Guide to Theory, Algorithm, and System Development. Prentice Hall PTR.

9. Hastie T., Tibshirani R., Friedman J. H., Friedman J. H. (2009) The Elements of Statistical Learning: Data Mining, Inference, and Prediction. Springer.

10. On C. K., Pandiyan P. M., Yaacob S., Saudi A. (2006) Mel-Frequency Cepstral Coefficient Analysis in Speech Recognition. In 2006 International Conference on Computing & Informatics. 1–5.

11. Livingstone S. R., Russo F. A. (2018) The Ryerson Audio-Visual Database of Emotional Speech and Song (RAVDESS): A Dynamic, Multimodal Set of Facial and Vocal Expressions in North American English. PloS One. 13 (5).

12. Luna-Jiménez C., Griol D., Callejas Z., Kleinlein R., Montero J. M., Fernández-Martínez F. (2021) Multimodal Emotion Recognition on RAVDESS Dataset Using Transfer Learning. Sensors. 21.

Рецензия

Для цитирования:

Краснопрошин Д.В., Вашкевич М.И. Метод распознавания эмоций в речевом сигнале с использованием машины опорных векторов и надсегментных акустических признаков. Доклады БГУИР. 2024;22(3):93-100. https://doi.org/10.35596/1729-7648-2024-22-3-93-100

For citation:

Krasnoproshin D.V., Vashkevich M.I. Speech Emotion Recognition Method Based on Support Vector Machine and Suprasegmental Acoustic Features. Doklady BGUIR. 2024;22(3):93-100. (In Russ.) https://doi.org/10.35596/1729-7648-2024-22-3-93-100

Контент доступен под лицензией Creative Commons Attribution 4.0 License.

ISSN 1729-7648 (Print)
ISSN 2708-0382 (Online)

Логин
Пароль
	Запомнить меня
Регистрация нового пользователя Забыли Ваш пароль?

Войти

Доклады БГУИР

Метод распознавания эмоций в речевом сигнале с использованием машины опорных векторов и надсегментных акустических признаков

Полный текст:

Аннотация

Ключевые слова

Об авторах

Список литературы

Рецензия

Для цитирования:

For citation:

Использование куки-файлов