Сравнение методов оценки семантического сходства текстовых фрагментов
https://doi.org/10.35596/1729-7648-2026-24-2-85-91
Аннотация
В условиях быстрого роста объема текстовых данных появляется потребность в методах, способных эффективно сравнивать фрагменты текста по смыслу, включая случаи перефразирования, синонимизации и перестройки структуры предложений. Одна из актуальных задач – сопоставление результатов методов семантического сравнения на основе различных моделей с человеческим восприятием смысловой близости. В статье рассматривается экспертный метод оценки семантического сходства текстовых фрагментов, основанный на оценках участников анкетирования. Суть метода заключается в формировании интерпретируемой шкалы семантической близости, полученной на основе человеческого восприятия содержания текстов и используемой для анализа согласованности различных методов. Для формирования «человеческой» оценки проведен опрос 138 участников. Сравнительный анализ показал, что различные методы оценки семантического сходства демонстрируют неодинаковую степень согласованности с человеческим восприятием смысловой близости текстов.
Об авторах
К. С. КрезБеларусь
Крез Карина Сергеевна, асп., ассист. каф. проектирования информационно-компьютерных систем
220013, Минск, ул. П. Бровки, 6
Тел.: +375 29 952-75-56
Е. Н. Шнейдеров
Беларусь
канд. техн. наук., доц., каф. проектирования информационно-компьютерных систем, проректор по учебной работе
Минск
П. А. Шиш
Беларусь
студент
Минск
Е. В. Кондратенко
Беларусь
студент
Минск
Список литературы
1. Devlin J., Chang M.-W., Lee K., Toutanova K. (2019) BERT: Pre-Training of Deep Bidirectional Transformers for Language Understanding. Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies (NAACL-HLT 2019). 4171–4186. DOI: 10.18653/v1/N19-1423.
2. Reimers N., Gurevych I. (2019) Sentence-BERT: Sentence Embeddings Using Siamese BERTNetworks. Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP 2019). 3982–3992. DOI: 10.18653/v1/D19-1410.
3. Salton G., Buckley C. (1988) Term-Weighting Approaches in Automatic Text Retrieval. Information Processing & Management. 24 (5), 513–523. DOI: 10.1016/0306-4573(88)90021-0.
4. Gao T., Yao X., Chen D. (2021) SimCSE: Simple Contrastive Learning of Sentence Embeddings. Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing. 6894–6910. DOI: 10.18653/v1/2021.emnlp-main.552.
5. Feng F., Yang Y., Cer D., Arivazhagan N., Wang W. (2022) Language-Agnostic BERT Sentence Embedding. Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics. 878–891. DOI: 10.18653/v1/2022.acl-long.62.
Рецензия
Для цитирования:
Крез К.С., Шнейдеров Е.Н., Шиш П.А., Кондратенко Е.В. Сравнение методов оценки семантического сходства текстовых фрагментов. Доклады БГУИР. 2026;24(2):85-91. https://doi.org/10.35596/1729-7648-2026-24-2-85-91
For citation:
Krez K., Shneiderov E., Shish P., Kondratenko E. Comparison of Methods for Assessing the Semantic Similarity of Text Fragments. Doklady BGUIR. 2026;24(2):85-91. (In Russ.) https://doi.org/10.35596/1729-7648-2026-24-2-85-91
JATS XML























