Н. Сергеева, П. Храмцов, PHЦ "Курчатовский Институт"
LYCOS
Lycos основана в Малборо, Массачусетс и имеет свои представительства в Питсбурге, Пенсильвании. Являясь абсолютно бесплатной службой для пользователей (нет платы на подписку, поиск и ответные справки), LYCOS обслуживает более 30 млн. запросов в месяц, что делает ее одной из самых популярных служб на WWW. LYCOS поддерживается на средства Carnegie Mellon University.
Point, дочерняя компания LYCOS, является издателем первого обзора в on-line и руководства оценки для Internet, Point Survey. В настоящее время Point располагает наибольшей и свежей коллекцией Web обзоров, доступных в on-line, и обрабатывает 6 млн. Ответных справок (на запрос) в месяц. К тому же, недавно образованная и бесплатная служба Point Now обеспечивает в режиме реального времени обновление новостей и статей, представляющих общий интерес, со всего мира наряду с обновлениями по множеству специализированных предметных областей. И LYCOS, и Point извлекают доходы от рекламных объявлений. LYCOS дополнительно получает доходы от лицензий на использование своей технологии и Internet каталога таким компаниям как Microsoft Corp. и Frontier Technologies Corp. Возможности LYCOS по полноте информационных ресурсов поражают воображение. LYCOS заиндексировала свыше 10.75 млн. страниц по всему миру. Это составляет свыше 91% содержания World Wide Web. Никакой другой каталог, средство поиска или справочник даже не приближается к такой цифре. Посмотрим на таблицу, отражающую размеры каталогов ведущих служб:
Lycos | 91% | 10.75 млн. |
---|---|---|
Open Text | 12% | 0.80 млн. |
Infoseek | 6% | 0.40 млн. |
Yahoo | 1% | 0.05 млн. |
каталогизировано | загружено | |
---|---|---|
ftp | 486906 (16.5%) | 31931 (6.2%) |
gopher | 736091 (24.9%) | 106340 (20.6%) |
http | 1722152 (58.2%) | 377505 (73.2% |
mailto | 276 | - |
news | 218 | - |
rlogin | 157 | - |
telnet | 11401 (0.4%) | - |
Wais | 784 | - |
Всего | 2957985 | 515776 |
Open Text
Посмотрим, чем хороша эта информационная служба, какие продукты и услуги предоставляет своим пользователям? Open Text Corp. является пионером и одним из лидеров в технологии поиска с развитой логикой. Программные средства Open Text Corp. хорошо понимают структуру документов на Internet и быстро выдают релевантные результаты по запросам пользователя. Для достижения этой цели продукты и технология Open Text позволяют пользователю искать любое слово на любой странице, доступной на Internet - и в локальной, и в глобальной сети - в соответствии с критерием, определенным пользователем.
Основанная в 1991, Open Text Corp. является частной компанией, главное правление которой расположено в Ватерлоо, Канаде. Ее основной высокопроизводительный инструмент поиска по тексту - Open Text 5 основан на технологии Центра разработок текстовой информации в Университете Ватерлоо. Технология используется как в академических и правительственных учреждениях, так и компаниями, связанными с такими отраслями деятельности как автопромышленность, финансовые услуги, здравоохранение, страхование, библиотеки, издательская деятельность.
Open Text Corp. разработала технологию и рыночную стратегию, с целью занять ведущее место на быстрорастущем рынке продуктов и услуг по интерактивному поиску, который оценивался в 1994 в 400 млн.$, а годовой рост приблизительно был равен 30-35%.
Для того, чтобы извлечь максимальную выгоду из этих благоприятных возможностей для бизнеса, Text Corp. за последние 12 месяцев увеличила свой штат и вкладывает значительные ресурсы в деятельность по сбыту и маркетингу. Компания работает с такими партнерами как Yahoo!, интегрирующая продукты Open Text в свои собственные продукты и услуги, а также другими деловыми компаниями, поддерживающими и продающими продукты компании в различных отраслях.
Компания начала свою деятельность с создания средства поиска по полному тексту для Оксфордского английского словаря. Способность такого средства обрабатывать огромные массивы текста наряду с пониманием его структуры, выполненной в формате SGML, стала основой для Open Text IndexTM, наиболее объемлющего мощного средства по поиску на Internet. Создание Open Text LatitudeTM, системы распределения документов, позволяющей целым предприятиям искать и использовать все документы, было естественным результатом прежних усилий. Технология Web Search ServerTM предоставляет средства для расширения возможностей поиска текста в Internet и приложений по поиску,
открывая доступ пользователям ко всем поисковым данным на Internet. С помощью "ползунов", Open Text программ-посредников по индексированию, Web Search Server индексирует каждое слово, каждую страницу на Internet. Кроме постоянного индексирования, "ползуны" регулярно посещают различные узлы, пополняя раздел "что нового" в основном индексе. Web Search Server "подпитывается" посредством Open TextTM, т.е. основан на разработке Open Text Index, гарантирующей следующие возможности: индексирование "слово за словом" и гибкие эффективные поисковые запросы, включающие многоуровневые булевы, структурированные поиски, ранжированные и простые поиски для определенных слов и фраз.
Open Text 5 является сердцем индексирования Open Text INDEX на WWW. Это высокопроизводительный механизм поиска с развитыми логическими возможностями, разработанный для переработки огромных объемов информации.
Преимущества Open Text 5:
CUSI
CUSI (Configurable Unified Search Engine) является настраиваемым поисковым интерфейсом для многих WWW ресурсов, доступных для поиска. Он позволяет вам быстро проверить связанные ресурсы, не настраиваясь на каждый из них и не перебивая ключевые слова. Механизм разработан и представлен как личная инициатива М.Костера в 1993. Теперь он является частью программы "NEXOR - профессиональная служба WEB".
GlOSS
GlOSS является системой, разработанной в Стэнфордском университете, помогающая найти источники данных, релевантные вашим запросам. Только представьте GlOSS перечень ключевых слов, и GlOSS отобразит ранжированный перечень источников, вероятно содержащих документы, какие вы ищете.
IS Workgroup, Search page
Во-первых, существует связь с собственным IS перечнем мест, представляющих интерес, содержащий некоторые определенные соединения к серверам, которые члены рабочей группы признали интересными. Оставшаяся часть этого документа представляет некоторые наиболее полезные механизмы поиска, доступные на WWW. Вводите ваш запрос, выбираете механизм поиска и нажимаете 'submit'.
InfoSeek
InfoSeek является одним из популярных механизмов поиска на Web. Поиск с его помощью очень легок и увлекателен. InfoSeek содержит достаточно большой индекс WWW страниц на Internet и наиболее полный в мире полнотекстовый индекс UseNet новостей (свыше 10,000 групп новостей охватывают почти любую тему, какую только можно вообразить). Вы можете ввести запрос на простом английском языке или ключевые слова и фразы, и высокоточный механизм поиска найдет информацию, какую вы ищите, за секунды.
Internet Search Engines
Internet - огромен и все более разрастается днем и ночью, и поиск ресурса, необходимый вам, может показаться устрашающим. Эта страница включает связи к достаточно продвинутым механизмам поиска для тех пользователей, кто более или менее точно знает, что он ищет. Если такого понимания нет, тот имеется в наличии перечень более дружелюбных для пользователя механизмов поиска Эти механизмы позволяют вам искать информацию разными способами - одни ищут названия документов, другие - сами документы и третьи- другие индексы и директории.
JumpStation Front Page
JumpStation является способом нахождения ссылок на информацию, доступную на WWW. Пользователи получают множество связей на другие страницы Web, соответствующих их запросу. Для сбора данных JumpStation использует Robot, обеспечивающий средства поиска для темы, на которую есть ссылка в названии документа.
Muscat
Muscat является механизмом поиска на естественном языке, который намного быстрее, чем другие статистические поисковые системы. Muscat помогает пользователям, предлагая родственные слова на лету: нет необходимости вручную создавать "темы" или тезаурус.
Yahoo
Yahoo считается одной из популярных и объемлющих директорий на WWW. Yahoo предлагает поиск по ключевым словам и директорию 'что на Web'. Но использование категорий директории может быть бесполезным, если вы точно не знаете, что хотите.
WWW Search Engines
Содержит 117 различных механизмов поиска на одной странице.
Теперь приведем пример информационной службы, совершенно отличной от выше рассмотренных как по источникам информации, так по поисковым возможностям.
NTIS
National Technical Information Service (Национальная служба технической информации) является необходимым средством для представления информации, субсидируемой правительством США. NTIS, агентство в Министерстве торговли, по праву служит в качестве самого большого центрального ресурса информации, касающейся научно-технических и инженерных работ, а также бизнеса. Служба предоставляет широкий спектр информации, которую трудно найти где-либо еще. NTIS обеспечивает доступ к более, чем 2.7 млн. Названий, представляющих собой доклады, описывающие исследования, ведущиеся или спонсирующиеся федеральными агентствами; статистическую и деловую информации; аудио-визуальные продукты; программные средства и базы данных, разработанные федеральными агентствами; и технические доклады, подготовленные международными исследовательскими организациями. Около 85.000 новых документов индексируется и добавляется ежегодно.
Информация поступает от многочисленных участников - правительства США, источников, распространенных по всему миру, и совместных предприятий. В соответствии со специальным законом, касающимся американских технологий, сотни федеральных агентств регулярно направляют в NTIS копию своих информационных продуктов для общедоступного распределения.
Только NTIS предоставляет следующие информационные услуги:
Российские информационные службы
До осени 1995 года российские поставщики IP-услуг не обращали особого внимания на организацию специализированных информационных служб для абонентов своих сетей. Серьезный прорыв в этом направлении был предпринят в конце года компанией SovamTeleport, которая объявила об организации системы Россия-On-line. В заявлении о создании этой службы было сказано, что она строится по примеру крупной коммерческой службы типа America On-line. Не вдаваясь в организационную сторону вопроса, попробуем оценить существующий уровень этого информационного ресурса в сравнении с такими службами как Lycos или Yahoo. Web страница РОЛ строится по образцу и подобию указанных выше служб. Если бы не русские буквы в графическом меню, то можно было бы и не заметить различий. Такое решение достаточно удобно с точки зрения выбора пользователем одной из страниц кодировки русских букв, т.к. не требует показа на полэкрана непонятной тарабарщины, в которой нужно разглядеть что-то осмысленное. К сожалению здесь достоинства системы кончаются. В системе отсутствует поиск информации по ключевым словам, что заставляет пользователя блуждать по системе меню, что само по себе достаточно утомительно. Большинство страниц, объявленных в гипертекстовых ссылках, находятся в стадии разработки и не содержат информации, зато уже есть коммерческий вход, требующий регистрации. По всей видимости отсутствует сколь-либо большая база данных индекса информационных ресурсов Internet, без которой не обходится ни одна западная служба. При регистрации скрипты системы не проверяют наличие данного пользователя в базе данных зарегистрированных пользователей системы. При входе в зарегистрированную часть необходимо указывать пароль, но при регистрации его задание не требуется, а, следовательно, есть проблемы с зарегистрированным входом( правда это можно объяснить бестолковостью пользователя, но в западных системах таких проблем не было).
При реализации системы SovamTeleport выбрал технологию Netscape. Такое решение оправдано и закономерно. В страницах применяется большое количество тегов из спецификации Netscape Extensions, что не мешает смотреть их и другими программами-просмотра. Дизайн системы полностью соответствует принятым другими службами решениям.
Интересна и организационная структура группы, которая занимается разработкой этого сервера. Общая численность сотрудников, согласно информации с сервера ROL составляет 11 человек, из которых собственно написанием HTML документов занимаются только двое. Однако при сравнении с другими аналогичными отечественными службами - это довольно большой штат. Ясно и другое - все перечисленные выше недостатки вытекают из-за того, что за два - три месяца невозможно развернуть полноценную информационную службу при таком количестве занятых в ней сотрудников. Будем надеяться, что через год РОЛ действительно станет реальным информационным ресурсом не только российского сектора Сети, но и всего Internet в целом.
В конце прошлого года к созданию своей информационной службы приступила компания Demos. Эта служба получила название Russia on Net. Важной особенностью этой службы является наличие электронного журнала Crazy Web и обращений к поисковым машинам удаленных информационных систем. Журнал представляет из себя набор страниц Web, которые не связаны между собой какой- либо тематической иерархией. При их реализации часто используются таблицы для форматирования текста. Поисковый механизм системы реализован путем обращений к таким поисковым машинам информационных служб как Yahoo, DejaNews, Infoseek, OpenText Search Engine, Lycos, DejaNews(поиск в архивах Usenet) и Intermap(почтовые адреса, Россия). Правда при загруженности отечественных каналов такой поиск не дает ни каких преимуществ перед прямым обращением к данным системам. Судя по дизайну страниц и их реализации, система опирается на возможности Netscape и совместима с этой программой серверов.
Relcom также начал преобразование своих информационных служб, которое вылилось в систему Infoline. Правда она не такая красивая, как перечисленные выше, но зато в ней реализована масса сервисных возможностей, которые скрыты от пользователей системы. Это и автоматическая перекодировка по типу клиента и дополнительные деревья, и поддержка СУБД, и многое другое. В системе не реализован поиск по ключевым словам ни в World Wide Web, ни в GopherSpace. Отчасти это объясняется нехваткой дискового пространства т.к. на одну только базу данных Veronica требуется около 2 Gb памяти. Однако в настоящее время изыскиваются гораздо большие возможности. В целом, информационные службы Relcom следует признать как одни из самых консервативных, продолжающих ориентироваться на алфавитно-цифровое описание и одновременное распространение информации в одном и том же виде как по электронной почте, так и по IP-соединениям, в частности по HTTP. В отличии от SovamTeleport, где есть группа разработчиков, или Demos, где есть выделенные люди, в Relcom за информационную службу никто персонально не отвечает. Обязанности размазаны по большому кругу сотрудников, которые занимаются еще и другими не менее ответственными делами: администрируют сеть, программируют, ведут базы данных и т.п. Пока не ясно как велика должна быть информационная служба, но опыт наших западных коллег говорит за то, что ее сотрудники должны заниматься только этим, и ни чем иным, только в этом случае служба будет эффективной.
Последняя служба о которой хочется рассказать - это служба RoSprint. Информационная служба этой сети не выделяется особенно из общей череды других систем подобного рода, но при отсутствии достаточно полного объема информации о Sprint появление Web сервера, который рассказал в общих чертах о сети и ее технологии - уже довольно знаменательное событие. Кроме того, информационная служба RoSprint выпускает электронный бюллетень, выпуски которого размещает на своем сервере в открытом доступе. При этом стоит принять во внимание, что носят эти выпуски скорее рекламный характер, но это тоже пока интересно.
Завершая описание отечественных служб, следует еще раз обратить внимание на то, что их система только зарождается, информация на них практически отсутствует, и знакомство с ними носит скорее исследовательский характер, чем реальное использование в своей повсеместной практике. Но, следует помнить, что развитие аналогичного спектра услуг на западе произошло в течении года- полутора, буквально на наших глазах, и наши специалисты в этом плане не уступают своим зарубежным коллегам. Будем надеяться, что в конце 1996 года можно будет уже перейти к содержательному анализу информационных служб российского сектора Internet.