Preview

Доклады БГУИР

Расширенный поиск

Вложенное преобразование с сохранением семантики исходных данных

https://doi.org/10.35596/1729-7648-2022-20-2-46-52

Аннотация

В современном мире данные, используемые для описания объектов, часто представлены в виде разряженных векторов с большим количеством признаков. Работа с такими данными является вычислительно неэффективной, что зачастую приводит к переобучению при моделировании. Поэтому используются алгоритмы понижения размерности данных, одними из которых являются автокодировщики. В статье предложен новый подход для оценки свойств полученных векторов меньшей размерности, а также основанная на этом подходе функция потерь. Идея предложенной функции потерь состоит в вычислении качества сохранения семантической структуры в пространстве вложений и добавлении этой метрики в функцию потерь, что позволяет сохранить отношения объектов в пространстве вложений и таким образом сохранить больше полезной информации об объектах. Полученные результаты показывают, что использование комбинации среднеквадратичной функции потерь вместе с предложенной позволяет улучшить качество полученных вложений.

Об авторах

М. Е. Ваткин
ОАО «Сбер Банк»
Беларусь

Ваткин Максим Евгеньевич - к.т.н., главный специалист по данным

220005, г. Минск, Бульвар Мулявина 6

тел. +375-29-278-13-78



Д. А. Воробей
ОАО «Сбер Банк»
Беларусь

Специалист по данным

220005, г. Минск, Бульвар Мулявина 6

тел. +375-29-278-13-78



М. В. Яковлев
ОАО «Сбер Банк»
Беларусь

Специалист по данным

220005, г. Минск, Бульвар Мулявина 6

тел. +375-29-278-13-78



М. Г. Кривова
ОАО «Сбер Банк»
Беларусь

Специалист по данным

220005, г. Минск, Бульвар Мулявина 6

тел. +375-29-278-13-78



Список литературы

1. Gupta P., Banchs R.E., and Rosso P. Squeezing bottlenecks: exploring the limits of autoencoder semantic representation capabilities. Neurocomputing. 2016;175:1001–1008.

2. Mikolov Т., Sutskever I., Chen К., Corrado G.S., Dean J. Distributed representations of words and phrases and their compositionality. NIPS. 2013:3111–3119.

3. Bourlard H., Kamp Y. Auto-association by multilayer perceptrons and singular value decomposition. Biol. Cybern. 1988;59(September (4)):291-294. DOI: 10.1007/bf00332918.

4. Al-Shabi M.A. Credit Card Fraud Detection Using Autoencoder Model in Unbalanced Datasets. JAMCS. 2019;33(5):1-16.

5. Saito T., Rehmsmeier M. The Precision-Recall Plot is More Informative than the ROC Plot When Evaluating Binary Classifiers on Imbalanced Datasets. PLoS One. 2015;10(3).

6. Husejinović А. Credit card fraud detection using naive Bayesian and C4.5 decision tree classifiers. Periodicals of Engineering and Natural Sciences. 2020;8(1):1-5.


Рецензия

Для цитирования:


Ваткин М.Е., Воробей Д.А., Яковлев М.В., Кривова М.Г. Вложенное преобразование с сохранением семантики исходных данных. Доклады БГУИР. 2022;20(2):46-52. https://doi.org/10.35596/1729-7648-2022-20-2-46-52

For citation:


Vatkin M.E., Vorobey D.A., Yakovlev M.V., Krivova M.G. Embedding With Preservation of Semantics of the Original Data. Doklady BGUIR. 2022;20(2):46-52. (In Russ.) https://doi.org/10.35596/1729-7648-2022-20-2-46-52

Просмотров: 2322


Creative Commons License
Контент доступен под лицензией Creative Commons Attribution 4.0 License.


ISSN 1729-7648 (Print)
ISSN 2708-0382 (Online)