Вложенное преобразование с сохранением семантики исходных данных

М. Е. Ваткин; Д. А. Воробей; М. В. Яковлев; М. Г. Кривова

doi:10.35596/1729-7648-2022-20-2-46-52

Вложенное преобразование с сохранением семантики исходных данных

М. Е. Ваткин, Д. А. Воробей, М. В. Яковлев, М. Г. Кривова

https://doi.org/10.35596/1729-7648-2022-20-2-46-52

Полный текст:

PDF (Rus)

сгенерировать QR код

Аннотация

В современном мире данные, используемые для описания объектов, часто представлены в виде разряженных векторов с большим количеством признаков. Работа с такими данными является вычислительно неэффективной, что зачастую приводит к переобучению при моделировании. Поэтому используются алгоритмы понижения размерности данных, одними из которых являются автокодировщики. В статье предложен новый подход для оценки свойств полученных векторов меньшей размерности, а также основанная на этом подходе функция потерь. Идея предложенной функции потерь состоит в вычислении качества сохранения семантической структуры в пространстве вложений и добавлении этой метрики в функцию потерь, что позволяет сохранить отношения объектов в пространстве вложений и таким образом сохранить больше полезной информации об объектах. Полученные результаты показывают, что использование комбинации среднеквадратичной функции потерь вместе с предложенной позволяет улучшить качество полученных вложений.

Ключевые слова

данные, вложение, вектор, функция потерь, линейное пространство, автокодировщик, машинное обучение

Об авторах

М. Е. Ваткин

ОАО «Сбер Банк»
Беларусь

Ваткин Максим Евгеньевич - к.т.н., главный специалист по данным

220005, г. Минск, Бульвар Мулявина 6

тел. +375-29-278-13-78

Д. А. Воробей

ОАО «Сбер Банк»
Беларусь

Специалист по данным

220005, г. Минск, Бульвар Мулявина 6

тел. +375-29-278-13-78

М. В. Яковлев

ОАО «Сбер Банк»
Беларусь

Специалист по данным

220005, г. Минск, Бульвар Мулявина 6

тел. +375-29-278-13-78

М. Г. Кривова

ОАО «Сбер Банк»
Беларусь

Специалист по данным

220005, г. Минск, Бульвар Мулявина 6

тел. +375-29-278-13-78

Список литературы

1. Gupta P., Banchs R.E., and Rosso P. Squeezing bottlenecks: exploring the limits of autoencoder semantic representation capabilities. Neurocomputing. 2016;175:1001–1008.

2. Mikolov Т., Sutskever I., Chen К., Corrado G.S., Dean J. Distributed representations of words and phrases and their compositionality. NIPS. 2013:3111–3119.

3. Bourlard H., Kamp Y. Auto-association by multilayer perceptrons and singular value decomposition. Biol. Cybern. 1988;59(September (4)):291-294. DOI: 10.1007/bf00332918.

4. Al-Shabi M.A. Credit Card Fraud Detection Using Autoencoder Model in Unbalanced Datasets. JAMCS. 2019;33(5):1-16.

5. Saito T., Rehmsmeier M. The Precision-Recall Plot is More Informative than the ROC Plot When Evaluating Binary Classifiers on Imbalanced Datasets. PLoS One. 2015;10(3).

6. Husejinović А. Credit card fraud detection using naive Bayesian and C4.5 decision tree classifiers. Periodicals of Engineering and Natural Sciences. 2020;8(1):1-5.

Рецензия

Для цитирования:

Ваткин М.Е., Воробей Д.А., Яковлев М.В., Кривова М.Г. Вложенное преобразование с сохранением семантики исходных данных. Доклады БГУИР. 2022;20(2):46-52. https://doi.org/10.35596/1729-7648-2022-20-2-46-52

For citation:

Vatkin M.E., Vorobey D.A., Yakovlev M.V., Krivova M.G. Embedding With Preservation of Semantics of the Original Data. Doklady BGUIR. 2022;20(2):46-52. (In Russ.) https://doi.org/10.35596/1729-7648-2022-20-2-46-52

Контент доступен под лицензией Creative Commons Attribution 4.0 License.

ISSN 1729-7648 (Print)
ISSN 2708-0382 (Online)

Логин
Пароль
	Запомнить меня
Регистрация нового пользователя Забыли Ваш пароль?

Войти

Доклады БГУИР

Вложенное преобразование с сохранением семантики исходных данных

Полный текст:

Аннотация

Ключевые слова

Об авторах

Список литературы

Рецензия

Для цитирования:

For citation:

Использование куки-файлов