Экспериментальные исследования по применению методов балансировки данных в задачах классификации
https://doi.org/10.35596/1729-7648-2025-23-5-66-74
Аннотация
Рассмотрены методы работы с несбалансированными данными при построении моделей машинного обучения для решения задачи классификации. Проведено исследование методов балансировки с определением их влияния на эффективность классических и ансамблевых моделей. Выбраны пять наборов данных различного объема и степени дисбаланса, выполнена их предобработка. Изучено влияние реализованных в библиотеке imbalanced-learn методов увеличения меньшего класса, уменьшения большего класса как при изолированном применении, так и при их комбинации. Определен диапазон оптимального соотношения классов после балансировки (от 1:1 до 2:1, где первое число соотносится с количеством объектов изначально меньшего класса) и оценено влияние подбора гиперпараметров при помощи Optuna. Установлено, что оптимизация гиперпараметров не компенсирует отсутствие балансировки данных, а наилучшие показатели качества моделей достигаются применением комплексного подхода с комбинацией двух методов балансировок различных типов, использованием ансамбля и подбором гиперпараметров. Наибольший вклад в качество моделей дало применение одного метода балансировки вместе с использованием ансамбля, поэтому такую комбинацию можно рекомендовать в условиях ограниченных временных и вычислительных ресурсов. Добавление метода уменьшения большего класса и подбор гиперпараметров целесообразно проводить при достаточном количестве ресурсов и высоких требованиях к качеству модели.
Об авторах
М. М. ЛукашевичБеларусь
Лукашевич Марина Михайловна, канд. техн. наук, доц., доц. каф. информационных систем управления,
220030, Минск, просп. Независимости, 4.
Тел.: +375 29 709-06-08.
Е. Клицунова
Беларусь
Клицунова Е., бакалавр информатики,
Минск.
Список литературы
1. Classification of Imbalanced Data: Review of Methods and Applications / P. Kumar [et al.] // IOP Conference Series: Materials Science and Engineering. IOP Publishing. 2021. Vol. 1099, No 1.
2. Krawczyk, B. Learning from Imbalanced Data: Open Challenges and Future Directions / B. Krawczyk // Progress in Artificial Intelligence. 2016. Vol. 5, No 4. P. 221–232.
3. Branco, P. A Survey of Predictive Modeling on Imbalanced Domains / P. Branco, L. Torgo, R. Ribeiro // ACM Computing Surveys (CSUR). 2016. Vol. 49, No 2. P. 1–50.
4. Sun, Y. Classification of Imbalanced Data: A Review / Y. Sun, A. K. C. Wong, M. S. Kamel // International Journal of Pattern Recognition and Artificial Intelligence. 2009. Vol. 23, No 4. P. 687–719.
5. Kim, M. An Empirical Evaluation of Sampling Methods for the Classification of Imbalanced Data / M. Kim, K. B. Hwang // PLoS One. 2022. Vol. 17, No 7.
6. Dube, L. Enhancing Classification Performance in Imbalanced Datasets: A Comparative Analysis of Machine Learning Models / L. Dube, T. Verster // Data Science in Finance and Economics. 2023. Vol. 3, No 4. P. 354–379.
7. Khan, A. A Review of Ensemble Learning and Data Augmentation Models for Class Imbalanced Problems: Combination, Implementation and Evaluation / A. Khan, O. Chaudhari, R. Chandra // Expert Systems with Applications. 2024. Vol. 244.
8. Клицунова, Е. Сравнительный анализ методов балансировки данных для задач машинного обучения / Е. Клицунова, М. М. Лукашевич // BIG DATA и анализ высокого уровня: сб. науч. ст. XI Междунар. науч.-практ. конф. Минск: Белор. гос. ун-т информ. и радиоэлек., 2025. С. 74–83.
Рецензия
Для цитирования:
Лукашевич М.М., Клицунова Е. Экспериментальные исследования по применению методов балансировки данных в задачах классификации. Доклады БГУИР. 2025;23(5):66-74. https://doi.org/10.35596/1729-7648-2025-23-5-66-74
For citation:
Lukashevich M.M., Klitsunova K. Experimental Studies on the Application of Data Balancing Methods in Classification Problems. Doklady BGUIR. 2025;23(5):66-74. (In Russ.) https://doi.org/10.35596/1729-7648-2025-23-5-66-74























