Preview

Доклады БГУИР

Расширенный поиск

Оценка сходства между наборами данных с помощью векторных представлений

https://doi.org/10.35596/1729-7648-2025-23-3-70-76

Аннотация

Рассмотрен подход к определению сходства наборов данных (датасетов) для обучения алгоритмов на примере датасетов с лицами людей. Такой подход позволяет находить похожие наборы данных из разных источников, расширяя детектирование признаков и классов и не нанося серьезного вреда балансировке. Для каждого объекта датасета получено векторное представление (эмбеддинг), затем выполнено сравнение эмбеддингов в обоих датасетах. Эксперименты проводились на примере датасетов с изображениями лиц людей. Для получения эмбеддингов использовалась предобученная сеть ResNet. В процессе исследований один датасет делился на две части, представляющие собой схожие датасеты, затем каждая из частей сравнивалась с отличающимся набором данных. Предлагается новая метрика сходства, которая обладает рядом преимуществ и позволяет находить наиболее похожие датасеты. 

Об авторах

А. А. Усатов
Белорусский государственный университет
Беларусь
магистр, асп. каф. информационных систем управления


А. М. Недзьведь
Белорусский государственный университет
Беларусь
д-р техн. наук, доц., зав. каф. информационных систем управления


Го Цзижань
Белорусский государственный университет
Беларусь
асп. каф. информационных систем управления


Список литературы

1. Ивахненко, А. Г. Кибернетические предсказывающие устройства / А. Г. Ивахненко, В. Г. Лапа. Киев: Акад. наук Укр. ССР, 1965.

2. Gradient-Based Learning Applied to Document Recognition / Y. Lecun [et al.] // Proceedings of the IEEE. 1998. Vol. 86, Iss. 11. Р. 2278–2324.

3. Label-Embedding for Image Classification / Z. Akata [et al.] // IEEE Transactions on Pattern Analysis and Machine Intelligence. 2015. Vol. 38, No 7. Р. 1425–1438. DOI: 10.1109/TPAMI.2015.2487986.

4. Image Quality Assessment: From Error Visibility to Structural Similarity / Z. Wang [et al.] // IEEE Transactions on Image Processing. 2024. Vol. 13, No 4. Р. 600–612. DOI: 10.1109/TIP.2003.819861.

5. Rubner, Y. The Earth Mover’s Distance as a Metric for Image Retrieval / Y. Rubner, C. Tomasi, L. J. Guibas // International Journal of Computer Vision. 2000. Vol. 40, No 2. Р. 99–121. DOI: 10.1023/A:1026543900054.

6. Lin, J. Divergence Measures Based on the Shannon Entropy / J. Lin // IEEE Transactions on Information Theory. 1991. Vol. 37, Iss. 1. Р. 145–151. DOI: 10.1109/18.61115.

7. Swain, M. J. Color Indexing / M. J. Swain, D. H. Ballard // International Journal of Computer Vision. 1991. Vol. 7, No 1. Р. 11–32.

8. Simonyan, K. Very Deep Convolutional Networks for Large-Scale Image Recognition / К. Simonyan, A. Zisserman // arXiv.1409.1556. 2014. Vol. 1.

9. Self-Similarity Guided Probabilistic Embedding Matching Based on Transformer for Occluded Person Re-Identification / Y. Pang [et al.] // Expert Systems with Applications. 2024. Vol. 237. https://doi.org/10.1016/j.eswa.2023.121504.

10. Efficient Estimation of Word Representations in Vector Space / Т. Mikolov [et al.] // arXiv:1301.3781. 2013. http://arxiv.org/abs/1301.3781.

11. The Unreasonable Effectiveness of Deep Features as a Perceptual Metric / R. Zhang [et al.] // arXiv:1801.03924. 2023. https://doi.org/10.48550/arXiv.1801.03924.

12. Deep Residual Learning Forimage Recognition / K. He [et al.] // arXiv:1512.03385. 2015. https://doi.org/10.48550/arXiv.1512.03385.

13. Learning Transferable Visual Models from Natural Language Supervision / А. Radford [et al.] // arXiv:2103.00020. 2021. https://doi.org/10.48550/arXiv.2103.00020.

14. Imagenet: A Large-Scale Hierarchicalimage Database / Jia Deng [et al.] // 2009 IEEE Conference on Computer Vision and Pattern Recognition. P. 248–255.

15. Недзьведь, А. М. Анализ изображений для решения задач медицинской диагностики / А. М. Недзьведь, С. В. Абламейко. Минск: Объедин. ин-т проблем информ. Нац. акад. наук Беларуси, 2012.


Рецензия

Для цитирования:


Усатов А.А., Недзьведь А.М., Цзижань Г. Оценка сходства между наборами данных с помощью векторных представлений. Доклады БГУИР. 2025;23(3):70-76. https://doi.org/10.35596/1729-7648-2025-23-3-70-76

For citation:


Usatoff А.А., Nedzved A.M., Jiran G. Assessing Similarity Between Datasets Using Vector Representations. Doklady BGUIR. 2025;23(3):70-76. (In Russ.) https://doi.org/10.35596/1729-7648-2025-23-3-70-76

Просмотров: 17


Creative Commons License
Контент доступен под лицензией Creative Commons Attribution 4.0 License.


ISSN 1729-7648 (Print)
ISSN 2708-0382 (Online)