Система анализа и классификации голосового сигнала на основе пертрубационных параметров и кепстрального представления в психоакустических шкалах
https://doi.org/10.35596/1729-7648-2022-20-1-73-82
Аннотация
Описан подход к построению системы анализа и классификации голосового сигнала на основе пертурбационных параметров и кепстрального представления. Рассмотрены два варианта кепстрального представления голосового сигнала: при помощи мел-частотных кепстральных коэффициентов (МЧКК) и при помощи барк-частотных кепстральных коэффициентов (БЧКК). В работе использовался общепринятый подход к вычислению МЧКК на основе частотно-временного анализа методом дискретного преобразования Фурье (ДПФ) с объединением энергии в субполосах. Данный метод аппроксимирует частотное разрешение слуха человека, но имеет фиксированное временное разрешение. В качестве альтернативы предложен вариант кепстрального представления на основе БЧКК. При расчете БЧКК использовался неравнополосный ДПФ-модулированный банк фильтров, аппроксимирующий частотную и временную разрешающую способность слуха. Целью работы ставилось сравнение эффективности применения признаков на основе МЧКК и БЧКК для построения систем анализа и классификации голосового сигнала. Результаты эксперимента показали, что в случае использования акустических признаков на основе МЧКК можно получить систему классификации голоса со средней полнотой классификации 80,6 %, а в случае использовании признаков на основе БЧКК этот показатель равен 83,7 %. При дополнении набора МЧКК признаков пертурбационными параметрами голоса средняя полнота классификации повысилась до 94,1 %, при аналогичном дополнении набора БЧКК признаков средняя полнота классификации увеличилась до 96,7 %.
Об авторах
М. И. ВашкевичБеларусь
Вашкевич Максим Иосифович - кандидат технических наук, доцент кафедры электронных вычислительных средств.
220013, Минск, ул. П. Бровки, 6, тел. +375-17-293-84-78
Д. С. Лихачёв
Беларусь
Кандидат технических наук, доцент кафедры электронных вычислительных средств.
Минск
И. С. Азаров
Беларусь
Доктор технических наук, заведующий кафедрой вычислительных средств.
Минск
Список литературы
1. Harar P., Galaz Z., Alonso-Hernandez J.B., Mekyska J., Burget R., Smekal Z. Towards robust voice pathology detection. Neural Computing and Applications. 2020;32(20): 15747-15757.
2. Likhachov D., Vashkevich M., Azarov E., Malhina K., Rushkevich Y. A mobile application for detection of amyotrophic lateral sclerosis via voice analysis. International Conference on Speech and Computer, 2021. Springer, Cham; 2021:372-383.
3. Benba A., Jilbab A., Hammouch A. Discriminating between patients with Parkinson’s and neurological diseases using cepstral analysis. IEEE Transactions on Neural Systems and Rehabilitation Engineering. 2016;24(10):1100–1108.
4. Tsanas A., Little M.A., McSharry P.E., Spielman J., Ramig L.O. Novel speech signal processing algorithms for high-accuracy classification of Parkinson's disease. IEEE Transactions on Biomedical Engineering. 2012;59(5):1264-1271.
5. Vashkevich M., Rushkevich Y. Classification of ALS patients based on acoustic analysis of sustained vowel phonations. Biomedical Signal Processing and Control. 2021;65:1-14.
6. Huang X., Acero A., Hon H.-W. Spoken language processing: A guide to theory, algorithm, and system development. Prentice hall PTR; 2001: 980.
7. Bielawski K., Petrovsky A. Proposition of minimum bands multirate noise reduction system which exploits properties of the human auditory system and all-pass transformed filter bank. IEEE Workshop Signal Processing. 2001:65-70.
8. Gareth J., Daniela W., Trevor H., Robert T. An introduction to statistical learning with applications in R. NewYork: Springer; 2013.
9. Vashkevich M., Petrovsky A. Rushkevich Y. Bulbar ALS detection based on analysis of voice perturbation and vibrato. IEEE International Conference on Signal Processing: Algorithms, Architectures, Arrangements, and Applications. 2019: 267-272.
Рецензия
Для цитирования:
Вашкевич М.И., Лихачёв Д.С., Азаров И.С. Система анализа и классификации голосового сигнала на основе пертрубационных параметров и кепстрального представления в психоакустических шкалах. Доклады БГУИР. 2022;20(1):73-82. https://doi.org/10.35596/1729-7648-2022-20-1-73-82
For citation:
Vashkevich M.I., Likhachov D.S., Azarov E.S. Voice Analysis and Classification System Based on Perturbation Parameters and Cepstral Presentation in Psychoacoustic Scales. Doklady BGUIR. 2022;20(1):73-82. (In Russ.) https://doi.org/10.35596/1729-7648-2022-20-1-73-82