АЛГОРИТМ ЭКСТРАКЦИИ ЗНАЧИМОЙ ИНФОРМАЦИИ ИЗ СТРАНИЦ WEB-САЙТОВ
Аннотация
Описаны разработанные алгоритмические подходы к выделению из web-страниц отдельных семантических частей: содержание и служебно-навигационная часть. Подходы базируются на механизме определения единых элементов на разных страницах одного сайта. Главной задачей исследования является улучшение качества информационного поиска посредством исключения из поискового массива web-страниц служебно-навигационной части. Реализованный эксперимент по анализу качества информационного поиска в web на основе тестовых данных с использованием реализованного алгоритма привел к определенному улучшению средней оценки точности поиска. В статье приведен детализированный анализ результатов информационного поиска с использованием описанного алгоритма.
Об авторе
А. П. Шоркин
Белорусский государственный университет информатики и радиоэлектроники
Беларусь
Список литературы
1. Ландэ Д.В. Основы интеграции информационных потоков. М., 2006.
2. Barfourosh A., Nezhad H., Anderson M. et. al. Information Retrieval on the World Wide Web and Active Logic: A Survey and Problem Definition. Michigan, 2002
3. Sebastiani F. // ACM Computing Surveys. 2002. Vol. 1. P. 1-47.
4. Liao C., Alpha S., Dixon P. // Proceedings of Australian Data Mining Conference. Canberra, 2003.
Для цитирования:
Шоркин А.П.
АЛГОРИТМ ЭКСТРАКЦИИ ЗНАЧИМОЙ ИНФОРМАЦИИ ИЗ СТРАНИЦ WEB-САЙТОВ. Доклады БГУИР. 2013;(4):33-37.
For citation:
Shorkin A.P.
ALGORITHM FOR MINING OF CORE WEBSITES PARTS FOR INFORMATIONAL SEARCH EFFICIENCY. Doklady BGUIR. 2013;(4):33-37.
(In Russ.)
Просмотров: 3368