Preview

Доклады БГУИР

Расширенный поиск

Экспериментальные исследования по применению методов балансировки данных в задачах классификации

https://doi.org/10.35596/1729-7648-2025-23-5-66-74

Аннотация

Рассмотрены методы работы с несбалансированными данными при построении моделей машинного обучения для решения задачи классификации. Проведено исследование методов балансировки с определением их влияния на эффективность классических и ансамблевых моделей. Выбраны пять наборов данных различного объема и степени дисбаланса, выполнена их предобработка. Изучено влияние реализованных в библиотеке imbalanced-learn методов увеличения меньшего класса, уменьшения большего класса как при изолированном применении, так и при их комбинации. Определен диапазон оптимального соотношения классов после балансировки (от 1:1 до 2:1, где первое число соотносится с количеством объектов изначально меньшего класса) и оценено влияние подбора гиперпараметров при помощи Optuna. Установлено, что оптимизация гиперпараметров не компенсирует отсутствие балансировки данных, а наилучшие показатели качества моделей достигаются применением комплексного подхода с комбинацией двух методов балансировок различных типов, использованием ансамбля и подбором гиперпараметров. Наибольший вклад в качество моделей дало применение одного метода балансировки вместе с использованием ансамбля, поэтому такую комбинацию можно рекомендовать в условиях ограниченных временных и вычислительных ресурсов. Добавление метода уменьшения большего класса и подбор гиперпараметров целесообразно проводить при достаточном количестве ресурсов и высоких требованиях к качеству модели. 

Об авторах

М. М. Лукашевич
Белорусский государственный университет
Беларусь

Лукашевич Марина Михайловна, канд. техн. наук, доц., доц. каф. информационных систем управления,

220030, Минск, просп. Независимости, 4.

Тел.: +375 29 709-06-08.



Е. Клицунова
Белорусский государственный университет
Беларусь

Клицунова Е., бакалавр информатики,

Минск.



Список литературы

1. Classification of Imbalanced Data: Review of Methods and Applications / P. Kumar [et al.] // IOP Conference Series: Materials Science and Engineering. IOP Publishing. 2021. Vol. 1099, No 1.

2. Krawczyk, B. Learning from Imbalanced Data: Open Challenges and Future Directions / B. Krawczyk // Progress in Artificial Intelligence. 2016. Vol. 5, No 4. P. 221–232.

3. Branco, P. A Survey of Predictive Modeling on Imbalanced Domains / P. Branco, L. Torgo, R. Ribeiro // ACM Computing Surveys (CSUR). 2016. Vol. 49, No 2. P. 1–50.

4. Sun, Y. Classification of Imbalanced Data: A Review / Y. Sun, A. K. C. Wong, M. S. Kamel // International Journal of Pattern Recognition and Artificial Intelligence. 2009. Vol. 23, No 4. P. 687–719.

5. Kim, M. An Empirical Evaluation of Sampling Methods for the Classification of Imbalanced Data / M. Kim, K. B. Hwang // PLoS One. 2022. Vol. 17, No 7.

6. Dube, L. Enhancing Classification Performance in Imbalanced Datasets: A Comparative Analysis of Machine Learning Models / L. Dube, T. Verster // Data Science in Finance and Economics. 2023. Vol. 3, No 4. P. 354–379.

7. Khan, A. A Review of Ensemble Learning and Data Augmentation Models for Class Imbalanced Problems: Combination, Implementation and Evaluation / A. Khan, O. Chaudhari, R. Chandra // Expert Systems with Applications. 2024. Vol. 244.

8. Клицунова, Е. Сравнительный анализ методов балансировки данных для задач машинного обучения / Е. Клицунова, М. М. Лукашевич // BIG DATA и анализ высокого уровня: сб. науч. ст. XI Междунар. науч.-практ. конф. Минск: Белор. гос. ун-т информ. и радиоэлек., 2025. С. 74–83.


Рецензия

Для цитирования:


Лукашевич М.М., Клицунова Е. Экспериментальные исследования по применению методов балансировки данных в задачах классификации. Доклады БГУИР. 2025;23(5):66-74. https://doi.org/10.35596/1729-7648-2025-23-5-66-74

For citation:


Lukashevich M.M., Klitsunova K. Experimental Studies on the Application of Data Balancing Methods in Classification Problems. Doklady BGUIR. 2025;23(5):66-74. (In Russ.) https://doi.org/10.35596/1729-7648-2025-23-5-66-74

Просмотров: 33


Creative Commons License
Контент доступен под лицензией Creative Commons Attribution 4.0 License.


ISSN 1729-7648 (Print)
ISSN 2708-0382 (Online)