Система анализа и классификации голосового сигнала на основе пертрубационных параметров и кепстрального представления в психоакустических шкалах

М. И. Вашкевич; Д. С. Лихачёв; И. С. Азаров

doi:10.35596/1729-7648-2022-20-1-73-82

Система анализа и классификации голосового сигнала на основе пертрубационных параметров и кепстрального представления в психоакустических шкалах

М. И. Вашкевич, Д. С. Лихачёв, И. С. Азаров

https://doi.org/10.35596/1729-7648-2022-20-1-73-82

Полный текст:

PDF (Rus)

сгенерировать QR код

Аннотация

Описан подход к построению системы анализа и классификации голосового сигнала на основе пертурбационных параметров и кепстрального представления. Рассмотрены два варианта кепстрального представления голосового сигнала: при помощи мел-частотных кепстральных коэффициентов (МЧКК) и при помощи барк-частотных кепстральных коэффициентов (БЧКК). В работе использовался общепринятый подход к вычислению МЧКК на основе частотно-временного анализа методом дискретного преобразования Фурье (ДПФ) с объединением энергии в субполосах. Данный метод аппроксимирует частотное разрешение слуха человека, но имеет фиксированное временное разрешение. В качестве альтернативы предложен вариант кепстрального представления на основе БЧКК. При расчете БЧКК использовался неравнополосный ДПФ-модулированный банк фильтров, аппроксимирующий частотную и временную разрешающую способность слуха. Целью работы ставилось сравнение эффективности применения признаков на основе МЧКК и БЧКК для построения систем анализа и классификации голосового сигнала. Результаты эксперимента показали, что в случае использования акустических признаков на основе МЧКК можно получить систему классификации голоса со средней полнотой классификации 80,6 %, а в случае использовании признаков на основе БЧКК этот показатель равен 83,7 %. При дополнении набора МЧКК признаков пертурбационными параметрами голоса средняя полнота классификации повысилась до 94,1 %, при аналогичном дополнении набора БЧКК признаков средняя полнота классификации увеличилась до 96,7 %.

Ключевые слова

голосовой сигнал, МЧКК, БЧКК, патология голоса

Об авторах

М. И. Вашкевич

Белорусский государственный университет информатики и радиоэлектроники
Беларусь

Вашкевич Максим Иосифович - кандидат технических наук, доцент кафедры электронных вычислительных средств.

220013, Минск, ул. П. Бровки, 6, тел. +375-17-293-84-78

Д. С. Лихачёв

Белорусский государственный университет информатики и радиоэлектроники
Беларусь

Кандидат технических наук, доцент кафедры электронных вычислительных средств.

Минск

И. С. Азаров

Белорусский государственный университет информатики и радиоэлектроники
Беларусь

Доктор технических наук, заведующий кафедрой вычислительных средств.

Минск

Список литературы

1. Harar P., Galaz Z., Alonso-Hernandez J.B., Mekyska J., Burget R., Smekal Z. Towards robust voice pathology detection. Neural Computing and Applications. 2020;32(20): 15747-15757.

2. Likhachov D., Vashkevich M., Azarov E., Malhina K., Rushkevich Y. A mobile application for detection of amyotrophic lateral sclerosis via voice analysis. International Conference on Speech and Computer, 2021. Springer, Cham; 2021:372-383.

3. Benba A., Jilbab A., Hammouch A. Discriminating between patients with Parkinson’s and neurological diseases using cepstral analysis. IEEE Transactions on Neural Systems and Rehabilitation Engineering. 2016;24(10):1100–1108.

4. Tsanas A., Little M.A., McSharry P.E., Spielman J., Ramig L.O. Novel speech signal processing algorithms for high-accuracy classification of Parkinson's disease. IEEE Transactions on Biomedical Engineering. 2012;59(5):1264-1271.

5. Vashkevich M., Rushkevich Y. Classification of ALS patients based on acoustic analysis of sustained vowel phonations. Biomedical Signal Processing and Control. 2021;65:1-14.

6. Huang X., Acero A., Hon H.-W. Spoken language processing: A guide to theory, algorithm, and system development. Prentice hall PTR; 2001: 980.

7. Bielawski K., Petrovsky A. Proposition of minimum bands multirate noise reduction system which exploits properties of the human auditory system and all-pass transformed filter bank. IEEE Workshop Signal Processing. 2001:65-70.

8. Gareth J., Daniela W., Trevor H., Robert T. An introduction to statistical learning with applications in R. NewYork: Springer; 2013.

9. Vashkevich M., Petrovsky A. Rushkevich Y. Bulbar ALS detection based on analysis of voice perturbation and vibrato. IEEE International Conference on Signal Processing: Algorithms, Architectures, Arrangements, and Applications. 2019: 267-272.

Рецензия

Для цитирования:

Вашкевич М.И., Лихачёв Д.С., Азаров И.С. Система анализа и классификации голосового сигнала на основе пертрубационных параметров и кепстрального представления в психоакустических шкалах. Доклады БГУИР. 2022;20(1):73-82. https://doi.org/10.35596/1729-7648-2022-20-1-73-82

For citation:

Vashkevich M.I., Likhachov D.S., Azarov E.S. Voice Analysis and Classification System Based on Perturbation Parameters and Cepstral Presentation in Psychoacoustic Scales. Doklady BGUIR. 2022;20(1):73-82. (In Russ.) https://doi.org/10.35596/1729-7648-2022-20-1-73-82

Контент доступен под лицензией Creative Commons Attribution 4.0 License.

ISSN 1729-7648 (Print)
ISSN 2708-0382 (Online)

Логин
Пароль
	Запомнить меня
Регистрация нового пользователя Забыли Ваш пароль?

Войти

Доклады БГУИР

Система анализа и классификации голосового сигнала на основе пертрубационных параметров и кепстрального представления в психоакустических шкалах

Полный текст:

Аннотация

Ключевые слова

Об авторах

Список литературы

Рецензия

Для цитирования:

For citation:

Использование куки-файлов