Методика сравнения поисковых систем по размеру


Тезисы в очень пунктирной форме.

ВВЕДЕНИЕ

- Насколько важен размер для поисковой машины в интернете?
   = "в интернете точность важнее полноты"?
   = статистика запросов по числу найденных документов
     (<1000/<100/0 = 50/30/10)
   = поиск редкой информации

- Можно ли доверять данным, сообщаемыми владельцами поисковиков?
   = реклама и ПиАр-заявления
   = разные методики подсчета

- "Найден миллион документов" - это правда?
   = какова "реально" доступная часть ответа?

- Архитектура поисковых машин и полнота поиска.
   = кластерные решения
   = шкалирование и эшелонирование
   = сокращение результатов (pruning)

- Что на самом деле ищут поисковые машины?
   = разные кодировки
   = разный регистр
   = разные формы слова
   = "автоматически исправленные ошибки"
   = запрос из нескольких слов - что считается найденным?

- Размер и качество - две стороны одной медали
   = фактор свежести: все ли ссылки "живы"?
   = зеркала, дубликаты и "очень похожие" документы
   = "редиректы"

МЕТОДИКА

- Зачем и какие надо брать редкие слова?
  = "неафиллированный" список слов
  = грамматическая корректность
  = полнота выборки

- Сервера и/или документы?
  = перебрать все найденные документы
  = перебрать все найденные сервера

- Коэффициенты качества
  = коэффициент "свежести"
  = коэффициент "уникальности"

- Разные интересные следствия
  = как узнать размер русского интернета?
  = альтернативные "лингвистические" измерения размера


Ссылки:

ПРИЛОЖЕНИЕ 1. Подробное описание алгоритма скачивания.

(см autluba.pl - sub process_request) Выполняется для всех поисковиков в цикле для 1-го запроса.

# сформировать поисковый url
$url = $search.uri_escape($query);

# повторять
do {

    # выполнить запрос и скачать ответ
    return if (($response = download($url)) eq "");

    # извлечь и добавить все "найденные документы" из страницы ответа
    get_docs($response, $docs);

    # если ссылки есть "еще с сервера" то для всех таких ссылок повторять
    while ($response =~ m!$reSiteMore!g) {

	# сформировать url запроса "еще с сервера"
	$more = $1;

        # повторять
	do {

	    # выполнить запрос и скачать ответ
	    # next if (($more_response = download($more)) eq "");

	    # извлечь и добавить все "документы" из страницы ответа
	    # get_docs($more_response, $docs);

        # пока можно найти и сформировать url перехода на следующую страницу
	} while (($more) = ($more_response =~ m!$reNextPage!));

    }

# пока можно найти и сформировать url перехода на следующую страницу
} while (($url) = ($response =~ m!$reNextPage!));

Hosted by uCoz