Методика сравнения поисковых систем по размеру
Тезисы в очень пунктирной форме.
ВВЕДЕНИЕ
- Насколько важен размер для поисковой машины в интернете?
= "в интернете точность важнее полноты"?
= статистика запросов по числу найденных документов
(<1000/<100/0 = 50/30/10)
= поиск редкой информации
- Можно ли доверять данным, сообщаемыми владельцами поисковиков?
= реклама и ПиАр-заявления
= разные методики подсчета
- "Найден миллион документов" - это правда?
= какова "реально" доступная часть ответа?
- Архитектура поисковых машин и полнота поиска.
= кластерные решения
= шкалирование и эшелонирование
= сокращение результатов (pruning)
- Что на самом деле ищут поисковые машины?
= разные кодировки
= разный регистр
= разные формы слова
= "автоматически исправленные ошибки"
= запрос из нескольких слов - что считается найденным?
- Размер и качество - две стороны одной медали
= фактор свежести: все ли ссылки "живы"?
= зеркала, дубликаты и "очень похожие" документы
= "редиректы"
МЕТОДИКА
- Зачем и какие надо брать редкие слова?
= "неафиллированный" список слов
= грамматическая корректность
= полнота выборки
- Сервера и/или документы?
= перебрать все найденные документы
= перебрать все найденные сервера
- Коэффициенты качества
= коэффициент "свежести"
= коэффициент "уникальности"
- Разные интересные следствия
= как узнать размер русского интернета?
= альтернативные "лингвистические" измерения размера
Ссылки:
ПРИЛОЖЕНИЕ 1. Подробное описание алгоритма скачивания.
(см autluba.pl - sub process_request)
Выполняется для всех поисковиков в цикле для 1-го запроса.
# сформировать поисковый url
$url = $search.uri_escape($query);
# повторять
do {
# выполнить запрос и скачать ответ
return if (($response = download($url)) eq "");
# извлечь и добавить все "найденные документы" из страницы ответа
get_docs($response, $docs);
# если ссылки есть "еще с сервера" то для всех таких ссылок повторять
while ($response =~ m!$reSiteMore!g) {
# сформировать url запроса "еще с сервера"
$more = $1;
# повторять
do {
# выполнить запрос и скачать ответ
# next if (($more_response = download($more)) eq "");
# извлечь и добавить все "документы" из страницы ответа
# get_docs($more_response, $docs);
# пока можно найти и сформировать url перехода на следующую страницу
} while (($more) = ($more_response =~ m!$reNextPage!));
}
# пока можно найти и сформировать url перехода на следующую страницу
} while (($url) = ($response =~ m!$reNextPage!));