Небольшая преамбула к этому документу, касающаяся самой молодой и самой перспективной, на мой взгляд, поисковой машины Яndex.
Сейчас на yandex.ru первая страница работает в режиме обработки запроса на естественном языке. Такой возможности нет у других поисковых систем (это больше, чем просто поиск по всем словам, указанным в запросе, а поиск с "пониманием"). В этом режиме вообще нет языка запросов. При этом желающие указывать в запросе логические операторы, могут пользоваться расширенным поиском со страницы http://yandex.ru/advanced.html
На странице выдачи результатов добавлена возможность <Найти похожие документы>, чего опять же нет у других российских поисковых систем.
Со 2-го февраля 1998 года в поисковой системе Яndex появилась возможность осуществлять повторный поиск только в найденных документах (нужно в случае, если найденно слишком много документов для уточнения запроса). Это некоторый эквивалент опции Refine Альтависты.
Russian Express | TELA поиск | Rambler | Яndex | Апорт Поиск | |
---|---|---|---|---|---|
Тип | Полнотекстовая | Полнотекстовая | Полнотекстовая | Полнотекстовая | Полнотекстовая |
Размер | 500.000 | 140.094 | 2.500.000 | 2.000.000 | 2.600.000 |
Период обновления | 20 дней | 3-4 недели | 1 раз в неделю | перманентно | раз в сутки (от 10 до 40 тысяч документов) |
Дата обновления | Нет, в проекте да | Да | Да, при расширенной выдаче результатов | Да | Да |
Указанные (submittes) страницы | 20 дней | - | 7-14 дней | 1-2 дня | 1-15 дней |
Неуказанные (non-submitted) страницы | 20 дней | - | до 3 месяцев | в зависимости от популярности документов | лимитируется скоростью обновления индекса |
Глубина индексирования | 5.000 документов на глубину 150 | 20 документов | неограничена | неограничена | неограничена |
Поддержка фреймов | Да | Да | Да | Да | Да |
Поддержка ImageMap | Да | Да | Да | Да | Да |
Индексирование защищенных паролями директорий и серверов | Возможно | Нет | Возможно | Возможно | Нет |
Учет популярности документа при реиндексировании | Нет (в проекте - да) | Нет | Нет | Да | Нет |
Использование robots.txt <META ROBOTS=... | Да | robots.txt - да
META - нет |
Да | Да | Да |
Влияние на алгоритм определения релевантности | Нет | Пока нет, в проекте - META-Keywords | Нет и не будет | Пока не поддерживаются | Пока не поддерживаются |
Title | пока URL | title | title или URL и относительная мера релевантности | title и URL | title |
Description | META-таг Description и часть текста документа | Первые строки документа | Первые 512 байт документа исключая meta, javascript, images... Существуют еще две формы вывода описания - короткая и длинная | Выдаются первые 1024 байт текста, мера релевантности, дата создания и объем документа | Предложения, содержащие слова запроса (1, 3 или до 10) |
Контроль за индексацией | Нет | Явно - нет, косвенно - указав в качестве критерия URL | Да (См. подробнее) | Пока нет | Да (См. подробнее) |
Имя поискового робота | www.search.ru | - | StackRambler/1.2 | YandexWeb | Aport |
Составил Андрей Аликберов, ЦИТ. Последние изменения 6 января 1998 года
Я благодарю за помощь Михаила В. Шишмарева (Plug Communication),
Дмитрия Крюкова (Stack Ltd.),
Силантия Крестовоздвиженского (Dux),
Евгения Киреева (Agama), а также Елену Колмановскую и Алексея Амилющенко (CompTek)