Оценка сходства между наборами данных с помощью векторных представлений

А. А. Усатов; А. М. Недзьведь; Го Цзижань

doi:10.35596/1729-7648-2025-23-3-70-76

Оценка сходства между наборами данных с помощью векторных представлений

А. А. Усатов, А. М. Недзьведь, Го Цзижань

https://doi.org/10.35596/1729-7648-2025-23-3-70-76

Полный текст:

PDF (Rus)

сгенерировать QR код

Аннотация

Рассмотрен подход к определению сходства наборов данных (датасетов) для обучения алгоритмов на примере датасетов с лицами людей. Такой подход позволяет находить похожие наборы данных из разных источников, расширяя детектирование признаков и классов и не нанося серьезного вреда балансировке. Для каждого объекта датасета получено векторное представление (эмбеддинг), затем выполнено сравнение эмбеддингов в обоих датасетах. Эксперименты проводились на примере датасетов с изображениями лиц людей. Для получения эмбеддингов использовалась предобученная сеть ResNet. В процессе исследований один датасет делился на две части, представляющие собой схожие датасеты, затем каждая из частей сравнивалась с отличающимся набором данных. Предлагается новая метрика сходства, которая обладает рядом преимуществ и позволяет находить наиболее похожие датасеты.

Ключевые слова

набор данных, векторное представление, ResNet, сходство датасетов, глубокое обучение

Об авторах

А. А. Усатов

Белорусский государственный университет
Беларусь
магистр, асп. каф. информационных систем управления

А. М. Недзьведь

Белорусский государственный университет
Беларусь
д-р техн. наук, доц., зав. каф. информационных систем управления

Го Цзижань

Белорусский государственный университет
Беларусь
асп. каф. информационных систем управления

Список литературы

1. Ивахненко, А. Г. Кибернетические предсказывающие устройства / А. Г. Ивахненко, В. Г. Лапа. Киев: Акад. наук Укр. ССР, 1965.

2. Gradient-Based Learning Applied to Document Recognition / Y. Lecun [et al.] // Proceedings of the IEEE. 1998. Vol. 86, Iss. 11. Р. 2278–2324.

3. Label-Embedding for Image Classification / Z. Akata [et al.] // IEEE Transactions on Pattern Analysis and Machine Intelligence. 2015. Vol. 38, No 7. Р. 1425–1438. DOI: 10.1109/TPAMI.2015.2487986.

4. Image Quality Assessment: From Error Visibility to Structural Similarity / Z. Wang [et al.] // IEEE Transactions on Image Processing. 2024. Vol. 13, No 4. Р. 600–612. DOI: 10.1109/TIP.2003.819861.

5. Rubner, Y. The Earth Mover’s Distance as a Metric for Image Retrieval / Y. Rubner, C. Tomasi, L. J. Guibas // International Journal of Computer Vision. 2000. Vol. 40, No 2. Р. 99–121. DOI: 10.1023/A:1026543900054.

6. Lin, J. Divergence Measures Based on the Shannon Entropy / J. Lin // IEEE Transactions on Information Theory. 1991. Vol. 37, Iss. 1. Р. 145–151. DOI: 10.1109/18.61115.

7. Swain, M. J. Color Indexing / M. J. Swain, D. H. Ballard // International Journal of Computer Vision. 1991. Vol. 7, No 1. Р. 11–32.

8. Simonyan, K. Very Deep Convolutional Networks for Large-Scale Image Recognition / К. Simonyan, A. Zisserman // arXiv.1409.1556. 2014. Vol. 1.

9. Self-Similarity Guided Probabilistic Embedding Matching Based on Transformer for Occluded Person Re-Identification / Y. Pang [et al.] // Expert Systems with Applications. 2024. Vol. 237. https://doi.org/10.1016/j.eswa.2023.121504.

10. Efficient Estimation of Word Representations in Vector Space / Т. Mikolov [et al.] // arXiv:1301.3781. 2013. http://arxiv.org/abs/1301.3781.

11. The Unreasonable Effectiveness of Deep Features as a Perceptual Metric / R. Zhang [et al.] // arXiv:1801.03924. 2023. https://doi.org/10.48550/arXiv.1801.03924.

12. Deep Residual Learning Forimage Recognition / K. He [et al.] // arXiv:1512.03385. 2015. https://doi.org/10.48550/arXiv.1512.03385.

13. Learning Transferable Visual Models from Natural Language Supervision / А. Radford [et al.] // arXiv:2103.00020. 2021. https://doi.org/10.48550/arXiv.2103.00020.

14. Imagenet: A Large-Scale Hierarchicalimage Database / Jia Deng [et al.] // 2009 IEEE Conference on Computer Vision and Pattern Recognition. P. 248–255.

15. Недзьведь, А. М. Анализ изображений для решения задач медицинской диагностики / А. М. Недзьведь, С. В. Абламейко. Минск: Объедин. ин-т проблем информ. Нац. акад. наук Беларуси, 2012.

Рецензия

Для цитирования:

Усатов А.А., Недзьведь А.М., Цзижань Г. Оценка сходства между наборами данных с помощью векторных представлений. Доклады БГУИР. 2025;23(3):70-76. https://doi.org/10.35596/1729-7648-2025-23-3-70-76

For citation:

Usatoff А.А., Nedzved A.M., Jiran G. Assessing Similarity Between Datasets Using Vector Representations. Doklady BGUIR. 2025;23(3):70-76. (In Russ.) https://doi.org/10.35596/1729-7648-2025-23-3-70-76

JATS XML

Контент доступен под лицензией Creative Commons Attribution 4.0 License.

ISSN 1729-7648 (Print)
ISSN 2708-0382 (Online)

Логин
Пароль
	Запомнить меня
Регистрация нового пользователя Забыли Ваш пароль?

Войти

Доклады БГУИР

Оценка сходства между наборами данных с помощью векторных представлений

Полный текст:

Аннотация

Ключевые слова

Об авторах

Список литературы

Рецензия

Для цитирования:

For citation:

Использование куки-файлов