Российские поисковые машины

Небольшая преамбула к этому документу, касающаяся самой молодой и самой перспективной, на мой взгляд, поисковой машины Яndex.

Сейчас на yandex.ru первая страница работает в режиме обработки запроса на естественном языке. Такой возможности нет у других поисковых систем (это больше, чем просто поиск по всем словам, указанным в запросе, а поиск с "пониманием"). В этом режиме вообще нет языка запросов. При этом желающие указывать в запросе логические операторы, могут пользоваться расширенным поиском со страницы http://yandex.ru/advanced.html

На странице выдачи результатов добавлена возможность <Найти похожие документы>, чего опять же нет у других российских поисковых систем.

Со 2-го февраля 1998 года в поисковой системе Яndex появилась возможность осуществлять повторный поиск только в найденных документах (нужно в случае, если найденно слишком много документов для уточнения запроса). Это некоторый эквивалент опции Refine Альтависты.

  Russian Express TELA поиск Rambler Яndex Апорт Поиск
Тип Полнотекстовая Полнотекстовая Полнотекстовая Полнотекстовая Полнотекстовая
Размер 500.000 140.094 2.500.000 2.000.000 2.600.000
Период обновления 20 дней 3-4 недели 1 раз в неделю перманентно раз в сутки (от 10 до 40 тысяч документов)
Дата обновления Нет, в проекте да Да Да, при расширенной выдаче результатов Да Да
Указанные (submittes) страницы 20 дней - 7-14 дней 1-2 дня 1-15 дней
Неуказанные (non-submitted) страницы 20 дней - до 3 месяцев в зависимости от популярности документов лимитируется скоростью обновления индекса
Глубина индексирования 5.000 документов на глубину 150 20 документов неограничена неограничена неограничена
Поддержка фреймов Да Да Да Да Да
Поддержка ImageMap Да Да Да Да Да
Индексирование защищенных паролями директорий и серверов Возможно Нет Возможно Возможно Нет
Учет популярности документа при реиндексировании Нет (в проекте - да) Нет Нет Да Нет
Использование robots.txt <META ROBOTS=... Да robots.txt - да

META - нет

Да Да Да
Влияние на алгоритм определения релевантности Нет Пока нет, в проекте - META-Keywords Нет и не будет Пока не поддерживаются Пока не поддерживаются
Title пока URL title title или URL и относительная мера релевантности title и URL title
Description META-таг Description и часть текста документа Первые строки документа Первые 512 байт документа исключая meta, javascript, images... Существуют еще две формы вывода описания - короткая и длинная Выдаются первые 1024 байт текста, мера релевантности, дата создания и объем документа Предложения, содержащие слова запроса (1, 3 или до 10)
Контроль за индексацией Нет Явно - нет, косвенно - указав в качестве критерия URL Да (См. подробнее) Пока нет Да (См. подробнее)
Имя поискового робота www.search.ru - StackRambler/1.2 YandexWeb Aport

Составил Андрей Аликберов, ЦИТ. Последние изменения 6 января 1998 года
Я благодарю за помощь Михаила В. Шишмарева (Plug Communication), Дмитрия Крюкова (Stack Ltd.), Силантия Крестовоздвиженского (Dux), Евгения Киреева (Agama), а также Елену Колмановскую и Алексея Амилющенко (CompTek)