References

bsuir

Доклады БГУИР

Doklady BGUIR

1729-76482708-0382

БГУИР

bsuir-186

Research Article

Статьи

АЛГОРИТМ ЭКСТРАКЦИИ ЗНАЧИМОЙ ИНФОРМАЦИИ ИЗ СТРАНИЦ WEB-САЙТОВ

ALGORITHM FOR MINING OF CORE WEBSITES PARTS FOR INFORMATIONAL SEARCH EFFICIENCY

Шоркин

А. П.

Shorkin

A. P.

noemail@neicon.ru

Белорусский государственный университет информатики и радиоэлектроникиBelarus

2013

03062019

043337

2019

Шоркин А.П.

Shorkin A.P.

Данная работа распространяется под лицензией Creative Commons Attribution 4.0.

This work is licensed under a Creative Commons Attribution 4.0 License.

https://doklady.bsuir.by/jour/article/view/186

Описаны разработанные алгоритмические подходы к выделению из web-страниц отдельных семантических частей: содержание и служебно-навигационная часть. Подходы базируются на механизме определения единых элементов на разных страницах одного сайта. Главной задачей исследования является улучшение качества информационного поиска посредством исключения из поискового массива web-страниц служебно-навигационной части. Реализованный эксперимент по анализу качества информационного поиска в web на основе тестовых данных с использованием реализованного алгоритма привел к определенному улучшению средней оценки точности поиска. В статье приведен детализированный анализ результатов информационного поиска с использованием описанного алгоритма.

Algorithm for automatic dividing of web page into 2 parts: service-navigational and contend parts is described. The method is based on the mining of repeatable elements in html-pages from same website. Main theory is that the quality of information search can be improved by tagging / deleting navigational elements of html pages. Developed method successfully mine service and content parts from html-pages. On the other hand, deleting of service part does not guarantee perfect improvement of web information search quality.

алгоритм экстракцииинформация

web-сайт

References1

Ландэ Д.В. Основы интеграции информационных потоков. М., 2006.

Barfourosh A., Nezhad H., Anderson M. et. al. Information Retrieval on the World Wide Web and Active Logic: A Survey and Problem Definition. Michigan, 2002

Sebastiani F. // ACM Computing Surveys. 2002. Vol. 1. P. 1-47.

Liao C., Alpha S., Dixon P. // Proceedings of Australian Data Mining Conference. Canberra, 2003.

The authors declare that there are no conflicts of interest present.