Вложенное преобразование с сохранением семантики исходных данных
https://doi.org/10.35596/1729-7648-2022-20-2-46-52
Аннотация
В современном мире данные, используемые для описания объектов, часто представлены в виде разряженных векторов с большим количеством признаков. Работа с такими данными является вычислительно неэффективной, что зачастую приводит к переобучению при моделировании. Поэтому используются алгоритмы понижения размерности данных, одними из которых являются автокодировщики. В статье предложен новый подход для оценки свойств полученных векторов меньшей размерности, а также основанная на этом подходе функция потерь. Идея предложенной функции потерь состоит в вычислении качества сохранения семантической структуры в пространстве вложений и добавлении этой метрики в функцию потерь, что позволяет сохранить отношения объектов в пространстве вложений и таким образом сохранить больше полезной информации об объектах. Полученные результаты показывают, что использование комбинации среднеквадратичной функции потерь вместе с предложенной позволяет улучшить качество полученных вложений.
Ключевые слова
Об авторах
М. Е. ВаткинБеларусь
Ваткин Максим Евгеньевич - к.т.н., главный специалист по данным
220005, г. Минск, Бульвар Мулявина 6
тел. +375-29-278-13-78
Д. А. Воробей
Беларусь
Специалист по данным
220005, г. Минск, Бульвар Мулявина 6
тел. +375-29-278-13-78
М. В. Яковлев
Беларусь
Специалист по данным
220005, г. Минск, Бульвар Мулявина 6
тел. +375-29-278-13-78
М. Г. Кривова
Беларусь
Специалист по данным
220005, г. Минск, Бульвар Мулявина 6
тел. +375-29-278-13-78
Список литературы
1. Gupta P., Banchs R.E., and Rosso P. Squeezing bottlenecks: exploring the limits of autoencoder semantic representation capabilities. Neurocomputing. 2016;175:1001–1008.
2. Mikolov Т., Sutskever I., Chen К., Corrado G.S., Dean J. Distributed representations of words and phrases and their compositionality. NIPS. 2013:3111–3119.
3. Bourlard H., Kamp Y. Auto-association by multilayer perceptrons and singular value decomposition. Biol. Cybern. 1988;59(September (4)):291-294. DOI: 10.1007/bf00332918.
4. Al-Shabi M.A. Credit Card Fraud Detection Using Autoencoder Model in Unbalanced Datasets. JAMCS. 2019;33(5):1-16.
5. Saito T., Rehmsmeier M. The Precision-Recall Plot is More Informative than the ROC Plot When Evaluating Binary Classifiers on Imbalanced Datasets. PLoS One. 2015;10(3).
6. Husejinović А. Credit card fraud detection using naive Bayesian and C4.5 decision tree classifiers. Periodicals of Engineering and Natural Sciences. 2020;8(1):1-5.
Рецензия
Для цитирования:
Ваткин М.Е., Воробей Д.А., Яковлев М.В., Кривова М.Г. Вложенное преобразование с сохранением семантики исходных данных. Доклады БГУИР. 2022;20(2):46-52. https://doi.org/10.35596/1729-7648-2022-20-2-46-52
For citation:
Vatkin M.E., Vorobey D.A., Yakovlev M.V., Krivova M.G. Embedding With Preservation of Semantics of the Original Data. Doklady BGUIR. 2022;20(2):46-52. (In Russ.) https://doi.org/10.35596/1729-7648-2022-20-2-46-52