Сравнение методов оценки семантического сходства текстовых фрагментов

К. С. Крез; Е. Н. Шнейдеров; П. А. Шиш; Е. В. Кондратенко

doi:10.35596/1729-7648-2026-24-2-85-91

Сравнение методов оценки семантического сходства текстовых фрагментов

К. С. Крез, Е. Н. Шнейдеров, П. А. Шиш, Е. В. Кондратенко

https://doi.org/10.35596/1729-7648-2026-24-2-85-91

Полный текст:

PDF (Rus)

сгенерировать QR код

Аннотация

В условиях быстрого роста объема текстовых данных появляется потребность в методах, способных эффективно сравнивать фрагменты текста по смыслу, включая случаи перефразирования, синонимизации и перестройки структуры предложений. Одна из актуальных задач – сопоставление результатов методов семантического сравнения на основе различных моделей с человеческим восприятием смысловой близости. В статье рассматривается экспертный метод оценки семантического сходства текстовых фрагментов, основанный на оценках участников анкетирования. Суть метода заключается в формировании интерпретируемой шкалы семантической близости, полученной на основе человеческого восприятия содержания текстов и используемой для анализа согласованности различных методов. Для формирования «человеческой» оценки проведен опрос 138 участников. Сравнительный анализ показал, что различные методы оценки семантического сходства демонстрируют неодинаковую степень согласованности с человеческим восприятием смысловой близости текстов.

Ключевые слова

семантическое сходство, обработка естественного языка, экспертный метод, сравнение текстов, шкалирование оценок, анкетирование, корреляция Пирсона, корреляция Спирмена

Об авторах

К. С. Крез

Белорусский государственный университет информатики и радиоэлектроники
Беларусь

Крез Карина Сергеевна, асп., ассист. каф. проектирования информационно-компьютерных систем

220013, Минск, ул. П. Бровки, 6

Тел.: +375 29 952-75-56

Е. Н. Шнейдеров

Белорусский государственный университет информатики и радиоэлектроники
Беларусь

канд. техн. наук., доц., каф. проектирования информационно-компьютерных систем, проректор по учебной работе

Минск

П. А. Шиш

Белорусский государственный университет информатики и радиоэлектроники
Беларусь

студент

Минск

Е. В. Кондратенко

Белорусский государственный университет информатики и радиоэлектроники
Беларусь

студент

Минск

Список литературы

1. Devlin J., Chang M.-W., Lee K., Toutanova K. (2019) BERT: Pre-Training of Deep Bidirectional Transformers for Language Understanding. Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies (NAACL-HLT 2019). 4171–4186. DOI: 10.18653/v1/N19-1423.

2. Reimers N., Gurevych I. (2019) Sentence-BERT: Sentence Embeddings Using Siamese BERTNetworks. Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP 2019). 3982–3992. DOI: 10.18653/v1/D19-1410.

3. Salton G., Buckley C. (1988) Term-Weighting Approaches in Automatic Text Retrieval. Information Processing & Management. 24 (5), 513–523. DOI: 10.1016/0306-4573(88)90021-0.

4. Gao T., Yao X., Chen D. (2021) SimCSE: Simple Contrastive Learning of Sentence Embeddings. Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing. 6894–6910. DOI: 10.18653/v1/2021.emnlp-main.552.

5. Feng F., Yang Y., Cer D., Arivazhagan N., Wang W. (2022) Language-Agnostic BERT Sentence Embedding. Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics. 878–891. DOI: 10.18653/v1/2022.acl-long.62.

Рецензия

Для цитирования:

Крез К.С., Шнейдеров Е.Н., Шиш П.А., Кондратенко Е.В. Сравнение методов оценки семантического сходства текстовых фрагментов. Доклады БГУИР. 2026;24(2):85-91. https://doi.org/10.35596/1729-7648-2026-24-2-85-91

For citation:

Krez K., Shneiderov E., Shish P., Kondratenko E. Comparison of Methods for Assessing the Semantic Similarity of Text Fragments. Doklady BGUIR. 2026;24(2):85-91. (In Russ.) https://doi.org/10.35596/1729-7648-2026-24-2-85-91

JATS XML

Контент доступен под лицензией Creative Commons Attribution 4.0 License.

ISSN 1729-7648 (Print)
ISSN 2708-0382 (Online)

Логин
Пароль
	Запомнить меня
Регистрация нового пользователя Забыли Ваш пароль?

Войти

Доклады БГУИР

Сравнение методов оценки семантического сходства текстовых фрагментов

Полный текст:

Аннотация

Ключевые слова

Об авторах

Список литературы

Рецензия

Для цитирования:

For citation:

Использование куки-файлов