История
Что такое WWW ?
WWW,W3 - система для доступа к гипертекстовой и гипермедиа-информации (как, впрочем, и к любой другой, но соль именно в "гипер"). Изначально проект WWW зародился в CERN, европейском центре физики высоких энергий в 1990, но со временем перерос рамки сообщества ученых-физиков. Первые программы, демонстрирующие работу системы, были закончены в 1992 году для компьютера NeXT. За несколько лет, прошедших с тех пор, система WWW совершила победоносное шествие практически по всем операционным платформам, включая самые примитивные (MS-DOS). "Отец" W3, Тим Бернерс-Ли, сейчас является руководителем консорциума W3O, W3 Organization, основанного CERN и MIT (Масачусетский технологический институт) в 1994 году для развития и стандартизации W3. В феврале 1995 года СERN вышел из консорциума, мотивируя это необходимостью сосредоточить все усилия на чисто физических проектах. Преемником CERN стал французский национальный компьютерный центр INRIA.
Видимо, пришло время расшифровать название. WWW, World Wide Web переводится как "всемирная паутина". В этом названии кроется глубокий смысл.
"Рабочее пространство" W3 - Internet. Это не означает, что W3 и Internet не могут обойтись друг без друга. Нет, вполне возможно использовать WWW в качестве локальной информационной системы. Более того, форматы данных и протоколы не имеют никакой привязки к технологической основе сети (IP). Однако всякая информационная система, помимо технических характеристик, сильна (или слаба) своим содержанием и пользовательским интерфейсом. Так уж получилось, что именно сеть Internet, являясь транспортом, в силу своего размера, открытости и структуры, сделала W3 глобальной реальностью, а миллионы пользователей совместно наполнили Web мириадами документов.
Причины успеха просты - дружественный интерфейс, легкость навигации в Internet, способность легко интегрировать мультимедиа-объекты и решение типа "все в одном" - типичный навигатор (browser) является клиентом для почти всех популярных информационных служб в Internet. Web фантастически популярен и растет даже быстрее Internet.
Последние цифры утверждают, что число WWW-серверов превысило 100 тысяч. Статистические оценки гласят, что в среднем каждый сервер содержит более тысячи документов.
Надо отметить, что идея распределенного гипертекста носилась в воздухе. Например, можно отметить проект одного из австрийских университетов Hyper-G. С точки зрения автора своим успехом WWW в очень большой степени обязана NCSA, разработавшему популярнейший в прошлом WWW-навигатор с графическими способностями. В начале 1993 года NCSA, National Center for Supercomputing Applications, Национальный центр суперкомпьютерных приложений при университете штата Иллинойс в Урбана-Шампань выпустил в свет первую версию Mosaic - W3-навигатора, которому было суждено завоевать мир. В свое время Mosaic прозвали "Internet killer application" (в смысле хит, бестселлер Интернет), и она была доступна практически для всех клонов Unix и для MS-Windows. Еще год назад Мозаика была основным (68%) инструментом для пользователей W3. С тех пор многое изменилось.
Следующий большой этап - образование компании Netscape Communications Corp. (NS) и выпуск этой компанией нового навигатора. Между бесплатным навигатором Mosaic и Netscape Navigator (далее просто Netscape) существует некая генеалогическая связь. Дело в том, что их написали одни и те же люди, в большинстве своем ныне работающие в Netscape Communications Corporation. Сейчас такое высказывание, может быть, не совсем точно, так как в команду Mosaic влились новые программисты вместо ушедших. Последняя из версий Netscape стоит $59 и для российских пользователей она доступна в составе интегрированного пакета для работы с Россией-Он-Лайн", подразделением ISP Sovam Teleport. С начала 1996-го года и Relcom и Demos начали распространение Netscape. Первые версии Netscape распространялись бесплатно и ими до сих пор многие пользуются.
Последние версии, как уже упоминалось, бесплатны для образовательных и бесприбыльных организаций. Кроме того, вы можете "оценивать" Netscape Navigator последней версии в течение 3-х месяцев с тем, чтобы принять решение - покупать или не покупать, так что у вас есть лазейка. Правда, Netscape - действительно лучший продукт в своем классе и после него довольно неприятно переходить к худшим WWW-навигаторам. Поэтому вам рекомендуется достать (ftp.netscape.com, анонимный FTP) Netscape и пробовать ее насколько позволяет лицензия, а там видно будет. Ближайшее зеркало (копия) архива Netscape в Европе
Кто же пользуется WWW ?
Рис.1. Профессии пользователей WWW
Для чего используется WWW ?
Рис. 2. Пристрастия пользователей WWW
Архитектура
HTML
Язык HTML, как уже упоминалось ранее, очень прост. Разработчики WWW и позже консорциум W3O стремятся оформить HTML как DTD (Document Type Definition) в терминах SGML (Standard Generalized Markup Language), ISO-стандарта для обработки документов. Чисто с практической точки зрения HTML представляет собой разметку, сделанную обычными английскими словами внутри документа. Например,
... "Нас оставалось 20 человек - те, кто не разочаровался и все равно хотел строить дома", - говорит Сергей Режков, директор "Альянса", - "И первое, что мы сделали - это добились финансирования нашего проекта. Если Вы хотите строить дома самостоятельно, Вам не обойтись без частных инвестиций". "Альянс" попал в число 27 победителей конкурса "Инвестпроект". ...HTML был разработан для того, чтобы выделить в документах логическую структуру.
HTTP
Протокол HTTP (HyperText Transfer Protocol) также в высшей степени прост, что даже иногда вредит организации информационного сервиса. Это правила общения между навигатором и WWW-сервером. Одна сессия легко укладывается в схему запрос-ответ. В простейшем случае навигатор требует некий документ, и сервер его выдает. С одной стороны, такая простота - вещь хорошая, с другой - это влечет за собой дополнительные накладные расходы и, следовательно, временные задержки и неэффективность.
Адресация, URL
Эта аббревиатура расшифровывается как Uniform Resource Locator, что можно вольно перевести, как "единый указатель на ресурс". Практически, это адрес документа. В обсуждениях WWW можно наткнуться на термины URN и URI, которые являются скорее заранее заготовленными терминами для блистательного будущего, но абсолютно бессмысленны в жизни. Подробная спецификация на URL может быть найдена в RFC1738. Здесь же мы ограничимся простым перечислением наиболее распространенных указателей.
Типичный для URL вид:
http | - передача гипертекста; |
---|---|
ftp | - протокол передачи файлов; |
telnet | - терминальный доступ; |
gopher | - еще одно очень популярное в Internet приложение; |
news | - новости Usenet; |
file | - для доступа к локальным файлам; |
Примеры URL
http://xxx.lanl.gov:8000/ http://info.cern.ch/ ftp://ftp.kiae.su/unix/ telnet://whitehouse.gov:23}Параметр "путь" специфичен для каждого протокола, например, для ftp - это путь в файловой системе. Похожий смысл (но не синтаксис !) имеет этот параметр и для других протоколов.
MIME
Согласование типов передаваемых в рамках WWW документов производится с помощью заголовков, которыми обмениваются навигатор и WWW-сервер. Весь комплекс этих заголовков известен как MIME, Multipurpose Internet Mail Extensions. Это означает "многоцелевые расширения почты в Интернет", и следы MIME можно видеть во многих электронных письмах, даже в странноватых, замкнутых на себя почтовых системах производства компаний типа Lotus или Microsoft.
Заголовки
Content-Transfer-Encoding: iso8859-5 Content-Length: 8674и, уж безусловно,
MIME-Version: 1.0есть несомненный признак MIME.
Browsers
Распределение пользователей WWW по платформам приблизительно напоминает разделение рынка между операционными системами:
Рис.3. WWW-платформы
Рис. 4. Популярность навигаторов
Cервера
Среди WWW-серверов доминируют системы на основе Unix-серверов (70%), в основном freeware. Свободно распространяемые сервера составляют около 80%. Около 10% рынка удалось захватить Netscape Comm. Corp. (сервер довольно дорого стоит), опираясь на реализацию шифрования, дающую возможность торговать поверх Internet. В последнее время все большую популярность приобретает Microsoft Internet Information Server, IIS, для NT Server (бесплатно). IBM выпускает для этой же платформы Internet Connection Server (бесплатно). На Unix-платформе приблизительно в равных, довольно больших долях присутствуют сервера NCSA и Apache, причем существует реализация Apache-SSL (с шифрованием).
Направление развития состоит в том, что производитель операционной системы, поставщик "железа" или прикладной системы поставляет интегрированное решение для WWW-сервера.
Примерами тому Microsoft, SGI, Oracle и т.д. Кстати, среди производителей СУБД, Oracle наиболее быстро и полно отреагировала на требования рынка, включив в свои каталоги Webserver option для Oracle 7.x.
Видимо в будущем все большая часть серверов будет работать под управлением Windows NT, Unix-платформы будут монотонно убывать, сопротивляясь.
Tools
Существуют две основные категории вспомогательных программ для поддержки WWW - конверторы и редакторы. Редакторов, особенно для MS Windows, очень много. Большинство из них либо shareware, либо freeware (Hotdog, HoTMetaL etc.). WYSIWYG-редакторов для WWW практически нет. Один из немногих продуктов, который может претендовать на такое громкое звание - Netscape Gold. Впрочем, его ценность снижена свойствами генерировать нестандартную разметку и общей нестабильностью. Среди других решений уместно выделить Microsoft Internet Assistant - бесплатное дополнение к Microsoft Word версий старше 6.0. Эти два представителя, помимо редакторских функций являются навигаторами.
Практика показывает, что как бы редактор не старался скрыть специфику WWW от пользователя, последний все равно должен иметь хорошее представление о системе, языке и способах адресации документов. Поэтому, несмотря на все это изобилие, профессиональная работа с HTML-текстом, как в России, так и на Западе, чаще всего осуществляется сочетанием простой текстовый редактор-навигатор, что дает прежде всего абсолютный контроль на разметкой.
Конверторы существуют для множества разнообразных форматов - LateX, RTF, Frame и т.д. В последнее время производители популярных издательских систем и текстовых процессоров включают в свои продукты или средства редактирования HTML-текста или возможность экспорта из внутреннего формата в HTML.
Процесс выработки и принятия стандартов в теории должен осуществляться в рамках стандартной для Internet процедуры. Рабочие группы IETF вырабатывают проекты, что-то публикуется в RFC, некоторым присваивается статус стандартов.
Рабочие группы IETF, тесно взаимодействуя с консорциумом W30, действительно произвели на свет несколько стандартов - на HTTP 1.0, URL, HTML 2.0 и Internet Media Types. Но на самом деле принятие этих стандартов запаздывало. Они как бы фиксировали текущее состояние дел.
Это означает, что фактичеcки доминирующий на рынке навигаторов производитель диктует свою волю стандартизующим органам. Результат - появление элементов, которые многим кажутся излишними. Нелишне напомнить, что классический HTML создавался для логической разметки документа и ни в коем случае не для украшательства - и это глубоко верно. Бизнес, пришедший в WWW, почему-то (на самом деле понятно, почему) воспринимает WWW как издательскую систему, требуя от нее соответствующих возможностей. Понятно, что коммерческий производитель навигаторов не может игнорировать нужды рынка, отсюда и масса совершенно чуждых исходной идее маркеров, попытки скрестить слона с ужом.
Сейчас в работе находится очередной проект языка HTML версии 3.0, в окончательной редакции которого должны присутствовать совершенно замечательные вещи - математическая разметка, загружаемые стили оформления (stylesheets) и т.д. Для тестирования элементов разрабатываемого стандарта консорциум W30 распространяет специальный навигатор для многих операционных платформ - Arena (http://www.w3.org/). Опять-таки, с моей точки зрения, разработка и принятие этого стандарта недопустимо запаздывают.
Настоятельно требуемое рынком введение стандарта на шифрование опять-таки задерживается по неясным причинам.
Безопасность
Передача секретной информации в Интернет является одной из самых актуальных областей исследований и развития. Уже существуют несколько предложений на стандарт и даже их реализаций.
Общее правило состоит в том, что если вы хотите защитить свою информацию, то вы должны делать это сами. Как это сделать, вопрос другой. В Internet доступны программы, которые реализуют чрезвычайно стойкие шифровальные алгоритмы и вы легко можете бесплатно или за минимальную сумму установить их на свой компьютер. Например, PGP, Pretty Good Privacy - пакет программ, реализующий алгоритмы RSA.
Применительно к WWW проблема безопасности стоит наиболее остро. Предложения на стандарт шифрования в Internet, Socket Security Layer, исходящие от Netscape Corp. были реализованы с одной стороны в навигаторе, а с другой стороны в серверах Netscape (отчасти поэтому они так дорого стоят). Это позволяло поставщикам информации начать электронную торговлю, E-commerce, принимать к оплате по сети кредитные карточки и т.д. Совсем недавно началось распространение безопасной модификации одного из самых популярных из серверов Apache - Apache-SSL.
Если вы помните, очень малое количество людей (7%) использует WWW для покупок. Пользователи не до конца доверяют программной секретности и в чем-то они правы.
Есть и дополнительные сложности - законодательство США запрещает экспорт мощных криптостойких программ, что на практике означает ограничение на длину используемого ключа шифрования до 40 бит. Это резко снижает уровень защиты и были прецеденты взлома зашифрованных сообщений.
Великое несчастье подстерегает неискушенного в Интернет пользователя. Так как первыми в России в Интернет проникли специалисты по ОС Unix, а также потому, что практически все серверное программное обеспечение существует и работает в Unix, то и правила игры в значительной мере устанавливались именно этими специалистами. Представление о мире и о том, как должны выглядеть русские тексты у них оказалось не совсем такое, как могли бы ожидать пользователи других систем. А именно, стандартом для электронной почты и вообще для русского текста в Интернет является кодировка КОИ-8. Она даже описана в RFC (RFC1489), чего нельзя сказать о других кодировках.
Таким образом, в настоящее время имеют хождение:
Самым интересным и многообещающим направлением развития Интернет и сетевых технологий в целом является проект Java компании Sun Microsystems. Именно с ним связаны сегодня самые интересные новости и проекты, именно Java у всех на устах.
Java - объектно-ориентированный язык, напоминающий C++. Наиболее интересным свойством является то, что программа на Java компилируется в псевдокод, который исполняется на виртуальной машине (естественно, реализация такой машины своя для каждой платформы). Этим достигается практически абсолютная портируемость приложений. Java легко и естественно интегрируется с WWW. Технология Java лицензирована Netscape Corp. и даже Microsoft Corp., которая намерена создать основанный на Java комплекс продуктов под общим названием Jakarta. Навигатор Netscape способен интерпретировать Java-код, помимо этого придуман NS создан некий Java-подобный упрощенный язык Javascript для пользователей которые не являются программистами и интерпретатор этого языка встроен в навигатор.
Java много обещает в будущем, однако кроме забавных и милых пустячков в WWW, пока самое большое достижение Java-технологии - неимоверный шум в прессе.
Java-страница - http://java.sun.com
VRML
Аббревиатура VRML расшифровывается как "язык описания виртуальной реальности". Это язык описания трехмерных сцен и объектов. Через World Wide Web пользователь может получить файл в формате VRML, и, если программа-клиент обладает такой возможностью, просматривать сцену с разных точек зрения. При этом картинка на экране остается плоской, но, перемещая точку обзора, пользователь может наблюдать вид трехмерного объекта с разных сторон.
Доступная пользователю стандартной PC виртуальная реальность пока производит довольно убогое впечатление.
Основная проблема этой технологии заключается в том, что обработка VRML-файлов происходит на компьютере пользователя и требует значительных вычислительных и графических ресурсов. Поэтому с одной стороны, программ-клиентов, поддерживающих VRML, не так уж много, и до сих пор нет стандартной программы для этого, доступной на различных платформах. С другой стороны, использование значительных ресурсов компьютера пользователя противоречит идеологии развития технологии по пути дешевых и легких Internet-терминалов, способных только отображать информацию, полученную по сети.
Ознакомится с спецификациями языка VRML можно, например, по URL
http://www.vrml.com/ |
http://www.eit.com/vrml/ |
Трафик
Сейчас IP-пакеты WWW занимают первое место среди объема передач в Internet. Массированное применение графики, бешеная популярность все больше ложатся тяжелым бременем на опорные сети провайдеров. Скорость расширения каналов не поспевает за ростом объема передач.
Решение - использование кэширующих посредников, в идеале - сети взаимодействующих кэширующих посредников, обменивающихся сохраненными документами. Недостатки - всегда найдутся пользователи, нежелающие использовать такую систему, возможное хранение устаревших документов, трудность взаимодействия с шифрующими клиентами/серверами.
В принципе, такие системы уже существуют, но по разным причинам их использование ограничено.
Поиск
WWW - принципиально децентрализованная система без центра - "никто не знает, где у спрута сердце, и есть ли у спрута сердце". Если поначалу анархия и свобода казались замечательным достижением, то в эпоху расцвета и тотального WWW пользователь сталкивается с трудностями поиска нужных ему материалов.
Пока эти проблемы решаются или популярными регистрационными WWW-серверами (http://www.yahoo.com/) или поисковыми роботами - программами, которые бродят по WWW-пространству, читают ВСЕ документы и индексируют их содержимое (http://altavista.digital.com/). Это, безусловно, временное, не масштабируемое решение.
Еще один интересный феномен наблюдается с широким распространением коммерческих компаний в WWW. Основной смысл и прелесть WWW (придавало громадное количество перекрестных ссылок разных серверов друг на друга. Теперь же наблюдаются изолированные наборы документов, никак не связанные с внешним миром, их задача - рекламировать и только.
Демография
Навигаторы
Сервера
Средства разработки (content-providing)
HTML
Безопасность
E-commerce
Новое
Русский язык
URL, производительность и структуризация