Тенденции развития информационных технологий
Если посмотреть на процесс внедрения новой информационной технологии в информационное дело не с узко технологических позиций, а в более широком социологическом аспекте, то нельзя абстрагироваться от общих тенденций развития информационной коммуникации и ее инфраструктуры. К этой инфраструктуре помимо библиотек относятся издательства и типографии, система книготорговли и распространения литературы, средства связи (почта, телеграф, телефон, радио и телевидение, телефакс, видеотекс, сети передачи данных), специализированные информационные центры.
В обобщенном виде эти тенденции таковы. Увеличение числа полнотекстовых баз данных и расширение производства оптических дисков углубляет процесс сращивания библиотечное информационной деятельности с редакционно-издательским делом и полиграфией, Распространение микро ЭВМ и персональных компьютеров ведет к созданию в центрах информации и у пользователей на дому автоматизированных рабочих мест, связанных в локальные информационные сети с выходом в глобальные. По этим сетям пользователи могут выходить в мощные национальные и международные центры поиска информации и копирования первоисточников (в некоторых системах копии пересылаются по каналам электросвязи и даже через искусственные спутники Земли).
Таким образом, специалисты могут формировать собственные базы данных, получая исходную информацию из разных источников, включая и приобретение компактных оптических дисков с текстами монографий, статей, библиографических указателей, каталогов, справочников. Все шире распространяются программные системы, позволяющие ученым и специалистам осуществлять поиск и переработку информации самостоятельно, без посредников (экспертные системы, гипертекстовые, системы обработки текста и изображений, электронного редактирования, автоматического индексирования, машинного. перевода и т.п.). Все более широкое применение находят настольные издательские системы (персональный компьютер + лазерный принтер), электронная почта, телеконференции, Наконец самое главное, вся эта деятельность осуществляется на прибыльной коммерческой основе, так как необходимая для нее совершенная техника, хотя она довольно быстро дешевеет, требует затраты значительных материальных средств.
Возможно, что именно последней из названных тенденций объясняется то, что библиотеки пока еще не играют заметной роли в обеспечении своих читателей электронной информацией. Чтобы не возвращаться к этому принципиальному моменту, требующему специального обсуждения, хочу сразу высказать. свое к нему отношение. Бесплатность библиотечного обслуживания явилась исторически важным этическим принципом. Но он дав но уже на практике оказался размытым. Ведь предоставление копий во всем мире является платным, хотя в большинстве стран — на бесприбыльной основе, Все электронные информационные услуги как в информационных центрах, так и в библиотеках тоже предоставляются за плату. Так как же быть с принципом бесплатности?
Считаю, что общество не может снять с себя ответственность за осуществление права каждого гражданина быть информированным на некотором базовом уровне. Этот уровень предполагает, что любой потенциальный читатель должен иметь доступ ко всей опубликованной информации при некотором минимуме усилий и в разумные сроки.
Поэтому традиционное библиотечно-библиографическое обслуживание должно оставаться бесплатным, а, скажем, цены на библиографические указатели, реферативные журналы, другие информационные издания, а также на копии первоисточников— доступными (на уровне. подписных цен на массовые издания). Весь же информационный сервис на базе новой информационной технологии неизбежно является и останется платным. При этом по мере возрастания интеллектуальной сложности информационных услуг цены на них будут также расти.
Любопытна проследить и за судьбой давней дискуссии по не менее принципиальному для данной темы вопросу о том, прекратился ли информационный взрыв и сохраняются ли прежние темпы прироста информации, по крайней мере, научно-технической. В 1973 г. профессор Сорбонны Ж. Андерла в исследовании, озаглавленном «Информация в 1985 году», утверждал, что к этому времени прирост недублируемой информации составит 12 млн. единиц в год, увеличение темпов роста 12-13%, доля машиночитаемой информации в автоматизированных системах 25%, а темпы ее роста 35-40% в год. Ему возражали ведущие американские специалисты В. Коч (Институт физиков, Вашингтон), К. Херринг («Белл Телефон») и Д. Прайс (Йельский университет) на семинаре Национального научного Фонда США в 1974 г. Они проявили скептицизм в отношении оценок количественного роста информации и вы- сказались за то. что в течение полувека ежегодный прирост информации сохранится на уровне 7-8%.
В 1985 г. Ж. Андерла проанализировал, в какой мере сбылись его прогнозы. Он отметил, что не предвидел микропроцессорной революции и распространения персональных компьютеров, влияния европейских правительств на развитие информационной индустрии и поэтому предсказанные.им изменения в информационной технологии наступили на пятилетие раньше предсказанного срока, хотя в начале 70-х годов были восприняты как утопические. До настоящего времени учет единиц машиночитаемой информации не налажен в той мере, в какой он ведется для традиционно издаваемой литературы. Поэтому точно подсчитать, насколько сбылись прогнозы роста информации, пока невозможно. Но приблизительные оценки, основанные на учете баз данных М. Вильямс, показывают, что в споре с американскими учеными правота была на стороне Ж. Андерла. Электронная информационная технология не сдерживает, а, наоборот, стимулирует рост информации, в том числе и научно-технической. Только происходит это в нетрадиционных формах, которые мы не очень умеем и не торопимся учитывать.
В начале 90-х гг. проводилось много исследований с целью оценить степень распространения информационной технологии в библиотеках и информационных службах в 1995-2010 гг. Эксперты не ошиблись в том, что в этот период от половины до трех четвертей потребителей будут иметь собственные телефаксы и широко использовать электронную почту. Видеотеке во французском варианте может сыграть определенную роль в межбиблиотечных связях, но его широкое распространение маловероятно из-за конкуренции компьютерных сетей. До 90% научно-технической информации может издаваться в электронной форме, при этом в цифровом виде будет храниться значительная часть изобразительной и звуковой информации.
Использование экспертных систем, считали эксперты, позволит улучшить результаты информационного поиска. Произойдут изменения в системе МБА: тексты и изображения будут передаваться по каналам связи и выводиться на терминалы потребите- лей. Каталоги будут во все большей степени становиться сводными и, возможно, наряду с библиографической информацией, классификационными индексами и шифрами хранения содержать изображения титульных листов.
Как в большинстве прогнозных исследований последних полутора десятилетий эксперты подчеркнули, что внедрение новой информационной технологии зависит от экономических факторов не в меньшей степени; чем от технических достижений. Хотя период, на который были рассчитаны эти прогнозы, еще не закончился, можно констатировать, что они реализуются с опережением. При этом прогнозы развития техники и технологии оказываются слишком осторожными, а прогнозы достижений в фундаментальных науках — слишком оптимистичными.
Влияние информационных технологий на развитие науки
Важной тенденцией в развитии информационных технологий было названо слияние редакционно-издательской и информационной деятельности. Технически она связана с появлением настольных издательских систем, которые получили большое распространение. Обычно такие системы состоят из персонального компьютера с достаточно большой внешней памятью и снабжены быстродействующим, лазерным принтером и сканером (вводным читающим устройством). По некоторым подсчетам экономия от их применения в подготовке деловой документации и научно-технической информации составляет до 50%. Однако для науки значение этой тенденции значительно глубже, нежели просто совершенствование издательского процесса.
Наиболее сильно влияют на развитие науки следующие изменения в информационной технологии:
а) рост производительности компьютеров при снижении стоимости обработки информации (их быстродействие и объем оперативной памяти продолжают расти на порядок каждый год без увеличения общей стоимости компьютеров),
б) возможность хранения в машиночитаемой форме больших объемов информации. Появление компактных оптических дисков с их большой емкостью (ныне равной объему не- скольких тысяч книг) ознаменовало относительно невысокую стоимость хранения информации (стоимость компакт диска сравнима с ценой граммофонной пластинки) и универсальность применения (текстовые, графические, звуковые, видео файлы, исполняемые и другие системные программы),
в) увеличение пропускной способности каналов связи и снижение стоимости передачи данных (волоконная оптика, спутниковые системы: стоимость передачи бита информации снижается на порядок за несколько лет),
г) возможность «персонализации» процесса обработки информации за счет широкого доступа конечного пользователя электронным информационным средствам.
Развитие технологии обработки информации привело в сфер научного обеспечения к возникновению новых информационных структур, меняющих методику научного исследование стандарты точности, сроки выполнения научных работ. Возможности этих технологий используются пока недостаточно, хо эти структуры существенно влияют на технологию получение передачи, хранения, и использования информации. Речь идет следующих элементах информационной технологии.
Автоматизированные системы сбора данных приводят к стиранию границ между научным прибором и компьютером, между процессами сбора данных и их обработки, становится несущественной пространственная разобщенность исследователя и пр бора. Машинные модели, позволяющие исследовать природные явления и технические системы в реальном масштабе времен начинают конкурировать по затратам и точности с натурные экспериментами в физике и биологии. Сети передачи данных (локальные и удаленные), создаваемые как системы межмашинного обмена, во все большей степени становятся средствами межличностного общения ученых. Наиболее популярной сетевой услугой теперь является электронная почта й ее производные (электронные журналы, телеконференции). Наблюдает усиленное использование компьютеров для подготовки обычна научных изданий (уже в середине 80-х гг. 60% всех документ по науке и технике на Западе подготавливались при помощи в числительной техники).
Характерно широкое применение конечным пользователем коммерческих текстовых и цифровых баз данных на основе совершенствующихся систем человеко-машинного интерфейса Базы данных научного характера составляют половину всех текстовых баз и обслуживают треть всех запросов. Наиболее перспективными считаются полнотекстовые базы (быстрое обновление, поиск по всему тексту, а не только по поисковому образу, немедленная выдача всего текста). Рост числа цифровых общедоступных баз данных сдерживается недоверием к «недокументированной» информации, отчужденной от своего создателя, а также недостаточной стандартизацией данных на всех уровнях (от методов их получения до формата представления). При этом растет число цифровых баз «для домашнего пользования»
Информатизация в науке сопровождается некоторыми по следствиями, которые оказываются неожиданными для инициаторов:
значительную и быстро растущую долю вычислительных ресурсов, выделяемых науке и образованию, реально используют административные службы этих сфер. Вообще бизнес и управление более эффективно, используют информационные технологии, чем наука и образование;
хотя информатизация и повысила уровень соревнования в науке, но в значительной мере оно стало соревнованием за доступ к информационным и вычислительным ресурсам.
Одним из популярных видов современной информационной технологии являются экспертные системы. Они обеспечили возможность новых подходов к раскрытию знания, зафиксированного не только в научных документах, но и в интеллекте ученых. Экспертные системы пришли на помощь информационно- поисковым системам координатного индексирования. Принципиальное отличие этого нового средства видно из сопоставления обычного информационного поиска и работы с экспертной системой. Если в первом случае упор делается на то, какая информация необходима, то во втором оказываются более важными ответы на вопросы, почему и для чего она нужна. Информационно- поисковая система в качестве запроса требует указания предмета или области интереса пользователя и выдает ему релевантные сведения или документы, в которых они могут содержаться. Экспертная система нуждается в описании проблемы или ситуации, а в ответ выдает гипотезы, рекомендации и объяснения, сопровождаемые показом хода рассуждений.
Но и экспертные системы уже не последнее слово информационной технологии. Даже самые «интеллектуальные» из них не могут удовлетворить потребности специалистов в манипулировании знаниями и в использовании возможностей компьютера при работе с текстом. Были проведены эксперименты, которые показали, что при большом корпусе текстов экспертные системы не справляются со своими задачами. Они часто решают не ту проблему, которая стоит перед специалистом, и ограничивают его активную роль в поиске решения.
Дело в том, что модуль объяснения в этих системах часто основан на ограниченных логических средствах и не позволяет включать в процесс поиска богатство человеческой интуиции и непредсказуемых ассоциаций. Самая же существенная ограниченность экспертных систем состоит в том, что мы не умеем извлекать для них экспертное знание ни из специалистов, ни из множества текстов, в которых это знание может быть заключено.
В последнее время сделаны значительные успехи в создании систем управления базами данных (СУБД), систем обработки текста, включая текстовые редакторы и процессоры. Они позволили реализовать такие программы, которые служат путеводителями по большим собраниям текстов в компьютере. Эти системы также имитируют человеческий интеллект при работе с текстом, но значительно превосходят человеческие возможности при охвате гигантских массивов информации.
Социальные последствия новой технологии
Автоматизированные информационные системы воздействуют на общественное развитие, меняя социальный облик труда, в первую очередь, творческого, Но и сами эти системы. появились в результате научно-технического прогресса как ответ на общественную потребность в новой технологии переработки информации.
В начале нашего века в структуре занятого населения США люди, занятые переработкой информации (включая образование, науку, культуру, организационное управление, связь), составляли единичные проценты, а к началу 80-х гг.— более половины. Между тем, их техническая оснащенность намного уступала и еще уступает вооруженности рабочих в промышленности и фермеров в сельском хозяйстве. Поскольку в условиях бумажной информатики рутинные интеллектуальные процессы мало производительны, падает и общая производительность труда. Это, в конечном счете, стало основным стимулом информатизации общества.
Возникнув и быстро совершенствуясь, электронные информационные технологии проникают во все поры социальных механизмов и оказывают сильное обратное воздействие на общественное производство. При этом совершенно не обязательно представлять себе функционирование автоматизированных систем лишь как работу их абонентов за дисплеем удаленного от банка данных терминала, при которой они получают необходимую информацию по каналу связи на компьютерный дисплей. Эти системы позволяют выпускать такие информационные издания, которые были невозможны при традиционной технологии. С их помощью можно заглянуть в скрытые от нас до сих пор глубины социальных процессов и влиять на действие их объективных законов.
Не следует забывать урока, который несколько десятилетий назад преподал, нам М. Маклюэн, считавший средства коммуникации определяющим фактором общественного развития. Мы хорошо понимаем, что как ни важны средства коммуникации, они все же играют подчиненную роль. И в информационной сфере смена технологии и технических средств предопределена общественной потребностью. Но это видно тогда, когда мы достаточно удалены от нее. С позиций же сегодняшнего дня, находясь на разломе, будучи участниками этой психологически тяжелой смены, мы склонны фетишизировать технические средства, выступающие для нас зримым символом происходящих перемен.
Для нас, работников умственного труда, наиболее зримым предвестникам безбумажного общества служит внедрение компьютеров в издательское дело. На протяжении последних десятилетий электронный набор текста используется для подготовки различного рода изданий: сначала научных и справочных, а теперь и многих массовых, в первую очередь журналов и других периодических изданий. Вначале электронный набор применялся для ускорения их выпуска, а затем дискеты и компакт-диски с машиночитаемой записью текста стали выпускаться как побочный продукт информационной деятельности.
В настоящее время распространение некоторых электронных изданий, например, зарубежных реферативных журналов, превышает тиражи их обычных изданий на бумаге. Увеличивается и число таких электронных изданий, которые не имеют бумажных аналогов. Чаще всего это техническая документация к компьютерным и программным системам, материалы крупных конгрессов и конференций, регулярно пополняемые фактографические базы данных, но все больше и научно-технические журналы. Переход от бумажных изданий к электронным вызывается не только экологическими причинами, хотя они играют существенную роль. Рост информационных потоков и необходимость увеличения производства бумаги ведет к дальнейшей вырубке лесов, дающих атмосфере кислород, и к загрязнению водоемов.
Смысл такого перехода заключается и в том, что рост числа дорогостоящих, неудобных для хранения и использования бумажных изданий создает трудности для передачи информации во времени и в пространстве. Уже сейчас проще найти необходимую специалисту информацию в автоматизированной информационной системе или в Интернете, нежели во многотомном своде справочного издания или в нескольких сотнях названий специальных журналов. Но ведь мы находимся лишь на пороге новой информационной технологии, и по ее начальным шагам не можем еще представить ее будущих достижений.
Как это обычно бывает при смене информационных технологий, новые средства поначалу копируют старые формы: Известно, что первопечатную книгу старались сделать похожей на рукописную. Современное электронное издание тоже пока сохраняет облик полиграфического, хотя и обладает многими новыми возможностями. В учебнике или монографии можно не только описать какое либо явление, но и продемонстрировать его динамическую модель. Электронную книгу можно не только читать, но и активно работать с ней, добавляя в нее собственные наблюдения, размышления и результаты экспериментов. В ней могут содержаться видео и звукозаписи необходимых иллюстраций со стереоскопическими и стерео звуковыми эффектами.
Принципиально новая черта электронных изданий заключается в предоставляемой ими возможности не только получать информацию, но и подвергать ее обработке на месте. Мы говорим, что информацией электронного издания можно манипулировать. Персональный компьютер становится привычным инструментом для представителей многих профессий, но прежде других его оценили ученые. Уже было сказано, что компьютер дал им возможность расширить рамки камерального эксперимента, просматривать под определенным углом зрения огромные массивы информации.
Это меняет не только практику информационной деятельности научного работника, но и социальные условия его труда. Ведь конечным продуктом труда ученого является новая научная информация. получаемая им в процессе переработки результатов исследований, проводимых им и его коллегами. Новая информационная технология сокращает время и затраты труда на получение и об работку данных, позволяет меньшими силами достигать больших результатов, меняет пропорции квалифицированного и вспомогательного персонала в науке.
Компьютер служит современному ученому записной книжкой, дневником и календарем, позволяет составлять отчеты, получать корреспонденцию, проводить заочные конференции с коллегами. Через Интернет он пользуется услугами информационных центров, их базами данных, читает на своем экране полные тексты публикаций статей, описаний изобретений, стандартов, законов и т.п., а также поддерживает постоянную связь с коллегами в любой стране.
Даже эти немногие примеры, которые в дальнейшем будут пополнены, показывают, что новая информационная технология выходит далеко за рамки научно-технической области, в которой она возникла. Научная коммуникация не является замкнутой социальной системой. Она всегда была тесно связана с такими общественными институтами, как библиотеки, книжные издательства и редакции журналов, радио, телевидение и другие средства массовой информации. Их функционирование с внедрением электроники становится более эффективным.
Но эта проблема имеет и более широкий аспект. Научная и массовая коммуникации взаимосвязаны, они обмениваются своими достижениями. Первые печатные книги были богослужебными, а первые журналы научными, что не мешает им в течение столетий трудиться на общей ниве. Принципы информационного поиска, сформулированные для научных публикаций, успешно используются в газетных банках данных. Нельзя не предвидеть, что электронная информационная технология довольно скоро сделает всю социальную информацию доступной каждому члену общества. Это поведет к важным переменам в образе жизни и мышлении людей. Мы еще не знаем, к каким именно, как не знали этого поколения, выросшие до распространения телевидения. Но теперь мы понимаем, что социальные последствия новой информационной технологии заслуживают внимания и серьезного изучения.
КОМПЬЮТЕРНЫЕ СРЕДСТВА ИНФОРМАТИКИ
Электронные вычислительные машины
Новую информационную технологию справедливо связывают с поистине ошеломляющими успехами в развитии электроники и вычислительной техники. Действительно, эти успехи значительно превосходят и опережают самые оптимистические прогнозы прошлых лет. Именно они позволили существенно продвинуться в автоматизации интеллектуальных процессов. Однако было бы неверно отождествлять развитие информационной технологии только с прогрессом электроники.
Теоретически устройства для переработки информации могут быть реализованы и с применением иных принципов. С другой стороны, далеко не все тенденции развития электронных вычислительных машин совпадают с теми потребностями информационной технологии, о которых мы ведем речь. Дальнейшее уменьшение габаритов компьютеров, увеличение их быстродействия и объемов оперативной памяти вызывается иными сфера- ми их применения, связанными, в частности, с необходимостью управления быстродвижущимися объектами.
Наше внимание, напротив, привлекают далеко еще не освоенные возможности компьютеров в работе с текстами на естественных языках, в переработке данных с целью получения информации и знаний. Поэтому, отдав необходимую дань тому явлению, которое чаще всего называют компьютерной (или, точнее, микропроцессорной) революцией, и определив свое отношение к перспективам развития вычислительных машин, мы сосредоточимся на феноменах «персональных вычислений» и обработки «деловой прозы». Они тесно связаны с широким развитием персональных компьютеров, автоматизированных рабочих мест на их основе, спецификой их программного обеспечения и обработки текстов, в особенности их электронного редактирования.
Быстрое развитие и внедрение компьютеров в различные сферы жизни происходит на протяжении нескольких последних десятилетий. Мое поколение еще хорошо. помнит то время, когда автоматическая переработка информации обсуждалась в фантастических романах. Но тридцать лет это достаточный срок, чтобы привыкнуть к тому, что автоматизация стала необходимой во всех областях письменной коммуникации. Уже сейчас во многих наших учреждениях значительная часть информационной продукции выпускается не только в традиционной, но и в машиночитаемой форме.
Однако большинства людей электронная информационная технология непосредственно почти не коснулась. Они по прежнему пишут пером или на пишущей машинке, читают книги, журналы и газеты в их привычном бумажном виде, обмениваются информацией по почте, телеграфу, или телефону, на экран телевизора смотрят в часы досуга. Хотя, разумеется, компьютер уже не представляется громоздким и дорогим устройством, занимающим обширные залы, стоящим сотни тысяч, а то и миллионы рублей, требующим обслуживания большими коллективами электронных инженеров и программистов.
Это представление уже не подтверждается нашей повседневной практикой ни в одной из информационных сфер, для которых современная информатика служит основным теоретическим базисом. Реальное положение дел в мире коренным образом изменилось, и на сегодняшний день эти представления не, соответствуют действительности. Что же касается перспективы, даже самой ближайшей, даже на несколько лет вперед, то она предвещает такие изменения, которых мы пока не можем предвидеть.
Электронная вычислительная машина стала дешевым, настольным инструментом, доступным в обращении всем, кто занят переработкой данных. Это оказалось возможным благодаря невиданному по темпам в истории техники развитию электроники, вычислительной техники и программирования. Стало обычным прослеживать этапы этого развития по поколениям компьютеров, которые сменялись каждое десятилетие, а теперь почти ежегодно.
Почти каждый этап заслуживает рассмотрения, так как указывает на принципиальные изменения при переходе от одного поколения к другому. Важно обратить внимание на то, что изменения основных параметров компьютеров, их быстродействия и объема оперативной памяти от поколения к поколению менялось на один, а то и на два порядка. Для нас, заботящихся о переработке не только и не столько числовой, сколько текстовой информации, особое значение имеют последние изменения. Переход от третьего поколения машин к последующим сопровождался использованием языков программирования ультравысокого уровня, диалоговым режимом использования компьютера и удобным интерфейсом пользователя: в четвертом поколении — цветным дисплеем с графопостроителем и звуковыми сигналами машины, а в пятом — возможностью устного общения с ней.
Это означает, что пользователь может забыть об устройстве машины и думать лишь о содержании и структуре тех проблем, которые он решает при ее помощи. Если прибегнуть к весьма условному, но часто встречающемуся сравнению с управлением автомобилем, то водителю как бы не нужно думать о порядке вспышек в цилиндрах двигателя, опережении зажигания на форсированных режимах его работы, он может сосредоточиться на маршруте и особенностях дорожной обстановки.
Продолжая эту аналогию, можно сказать, что как в автомобиле стал необязателен шофер-профессионал, так и с компьютером можно управляться без операторов и программистов. По видимому, нынешний период овладения вычислительными машинами и их развития можно уподобить двадцатым годам автомобилизма, когда автомобиль приобретал современный облик, а промышленность переходила к его массовому выпуску. Только темпы развития и распространения компьютеров намного выше.
Разумеется, деление компьютеров на поколения проводится очень обобщенно и не отражает многих процессов в информационной технологии. Оно удобно лишь для выделения некоторых принципиальных моментов, как в их устройстве, так в использовании, а главное, в ведущих тенденциях их совершенствования.
Что касается персональных компьютеров, то для нас важно понимать границу между теми, которые были рассчитаны на работу только с дисковой оперативной .памятью . (ДОС- совместимыми, их последняя версия — AT 286), и предназначенными для работы с графическими оболочками (Windows- совместимыми, начиная с компьютеров, оснащенных 386 процессором). Наиболее впечатляющим прогнозом развития компьютеров стал японский проект пятого поколения ЭВМ, суливший невиданные ранее возможности обработки. данных. Нам уже известен девиз этого проекта: «От обработки данных и, информации к обработке знаний». Обсуждали мы и технократическую ограниченность представления о чисто аппаратном решении проблемы доступа к накопленным человечеством знаниям.
Здесь хотелось бы подчеркнуть, что при переходе к пятому поколению компьютеров впервые изменился тип их архитектуры, который оставался неизменным на протяжении четырех десятилетий. За это время на четыре порядка (т.е. в 10 тыс. раз) выросли быстродействие и объем оперативной памяти ЭВМ, несколько раз принципиально менялась их элементная база, тип и режим использования машин. Но их архитектура оставалась постоянной— однопроцессорная ЭВМ с последовательным принципом вычислений, восходящая к модели Джона фон Неймана, американского математика венгерского происхождения. Он предложил вводить в машину данные вместе с программой, кодируя и то и другое на одном языке двоичной системы счисления.
Принцип работы такой ЭВМ с одним процессором и одной оперативной памятью показан на рис.11. Необходимо сложить четыре числа. Они помещены в память вместе с текущим результатом, который сейчас равен нулю, и программой действий процессора. За первый такт процессор складывает первое число (3) с текущим результатом (О) и получает новый результат (3), который помещается в память. За второй такт процессор складывает второе число (15) с текущим результатом (3) и получает новый результат (18), который помещается в память, За третий такт процессор получает новый текущий результат (22 = 4+18), который снова помещается в память. За четвертый и заключительный такт процессор получает новый результат (43), который является ответом. Если этот процессор должен сложить тысячу чисел, необходима тысяча тактов ЭВМ.
В пятом поколении ЭВМ предполагалось применить много- процессорную машину параллельной архитектуры. Принцип работы одного из вариантов суперкомпьютера такой архитектуры— системы потока данных — иллюстрируется на схеме, составлен- ной директором лаборатории вычислительной техники Массачусетского технологического института М.Л. Дертузосом (рис.12 ),
Особенностью этой системы является наличие нескольких комбинаций процессора и оперативной памяти, каналов «потока данных» и коммутационной сети между ними. Появляющиеся возможности технической реализации какой системы обеспечивает одновременность выполнения операций и ускорение процесса вычисления. Для наглядности схема воспроизводит тот же простой пример сложения четырех чисел, каждое из которых как бы помещено в тележку, движущуюся по рельсам.
В системе потока данных на схеме каждая из четырех комбинаций процессора и памяти присваивает числу (внутри тележки) направление (на флажке сбоку). Тележки движутся по коммутационной сети как на железнодорожных стрелках. Сеть начинает операции, направляя 3 и 15 в А, а 4 и 21 в Б, где они и помещаются в соответствующие оперативные памяти. (Таким образом, комбинации памяти и процессора В и Г в вычислениях участвовать не будите. За первый такт программы в памяти А и Б предписывают соответствующим процессорам сложить числа и получить результаты, 18 и 25. Эти числа направляются коммутационной сетью в А. (Память, процессор и канал потока данных Б-больше не потребуются). За второй такт, попав снова в процессор А, числа 18 и 25 складываются, образуя ответ 43..
Таким образом, имея 4 процессора, можно одновременно сложить 8 чисел за 3 такта или, другими словами, скорость вычислений в такой системе теоретически возрастает как экспонента к числу процессоров. ЭВМ Крэй-2 (США) имел четыре процессора, Крэй-3 — шестнадцать, а в Манчестерском университете проектировалась вычислительная машина с 256 процессорами. При этом, разумеется, изменение типа архитектуры было не единственным способом совершенствования компьютеров на пути к пятому. поколению, а описанная модель их новой архитектуры являлся лишь одним из возможных вариантов.
Впервые идею о построении многопроцессорной, ЭВМ высказали советские ученые в середине 70-х годов. Академик В.М. Глушков в одной из последних своих бесед, будучи уже тяжело больным, предложил принцип вычислений на ЭВМ, который он назвал «макроконвейерным». Он уподобил работу обычного однопроцессорного компьютера заводскому конвейеру. Макроконвейер может быть организован так, что несколько заводов. кооперируются, изготавливая, на своих конвейерах разные детали, которые затем собираются в готовое изделие. Точно так же, по его мнению, можно решать сложную вычислительную задачу параллельно на нескольких процессорах, если один из них обеспечивает, управление остальными. Эта идея сейчас успешно реализуется.
Характеризуя пятое поколение компьютеров, обычно говорят об их быстродействии в сотни миллиардов операций в секунду и объеме памяти в миллиарды байт, о том, что они воспринимают и выдают информацию в форме устной речи, распознают и отождествляют трехмерные цветные изображения, моделируют рассуждения специалистов в узких предметных областях. Какое же конкретное применение находят эти машины в жизни?
Большинство зарубежных специалистов считает, что самыми распространенными сферами использования компьютеров нового поколения являются промышленное производство и делопроизводство, наука и техника, конструирование и программирование вычислительных машин, авиация и космонавтика, военное дело, сфера торговли и услуг, образование, здравоохранение, искусство и культура. Значительная часть необходимых технических и программных средств уже создана и работает в промышленном режиме. Для массового их производства и внедрения требуются экономичные технологии и серьезные мероприятия по подготовке пользователей.
В промышленности компьютеры нового поколения позволяют создать полностью автоматизированные производства, управление которыми централизовано и осуществляется на уровне заданий по ассортименту, количеству и качеству изделий. В делопроизводстве интегрируется хранение, поиск и распространение служебной документации с организационным управлением и средствами коммуникации. Получают распространение телеконференции.
В науке, технике, медицине, авиации, торговле и сфере услуг повышается эффективность справочно-информационных систем, которые позволяют абонентам на рабочем месте перерабатывать в нужном аспекте полученную информацию. Экспортные и особенно диагностические системы достигают в этих сферах высокой степени интеллектуализации и занимают важное место а структуре трудовой деятельности ученых, инженеров, врачей и специалистов многих других отраслей народного хозяйства.
Образование и игры составляют особую сферу применения компьютеров, особенно персональных, на которую в настоящее время падает значительная доля их сбыта. Важную роль здесь играет совмещение цветного и объемного изображения со звуком и возможностью манипулировать текстом. Учебный процесс становится активным и динамичным. Каждый может преобразовать учебник под свои нужды. Сведения сообщаются не только в виде текста, но могут иллюстрироваться изображениями процессов и сопровождающих их звуков. Обучение сочетается с творчеством, отдых с просвещением. Вы можете, не выходя из дома, совершать путешествия, посещать музеи, обучаться вождению автомобиля, самолета, космического корабля и т.п.
Персональный компьютер и персональные вычисления
Одна из статей о персональных компьютерах в научно-популярном журнале начиналась со следующей аналогии. Если бы за последние четверть века самолетостроение развивалось в том же темпе, что и производство вычислительных машин, то пассажирский лайнер был бы в цене телевизора, и на нем можно было бы облететь земной шар за полчаса с одной канистрой горючего Эта аналогия, хотя и неточная, как всякая другая, хорошо подчеркивает фантастичность возможностей, открываемых ныне вычислительной техникой для личных надобностей каждого человека в переработке информации.
Появление персонального компьютера уже обросло типичной американской легендой. В ней рассказывается о том, как в начале 70-х годов два молодых калифорнийца, инженер Стивен Джобс и программист Стефен Возняк, запершись в своем гараже, сконструировали простой в употреблении домашний компьютер для хозяйственных и деловых нужд. Это и положило начало знаменитой фирме «Эппл» с миллиардными доходами и собственной линией развития персональных компьютеров.
Разумеется, в действительности все было не так просто. Однако, глядя на фотографию их популярной модели «Лайза II», трудно отделаться от впечатления, что они изобрели портативную пишущую машинку, которая подключается к бытовым телевизору и магнитофону и позволяет писать на экране вместо бумаги. Возможно, что это чисто внешнее «обытовление» компьютера, незаметность самого микропроцессора, встроенного
внутрь привычных в домашнем обиходе устройств, сыграло определенную роль в преодолении психологического барьера, отделявшего прежде компьютер от его пользователей.
Что же представляет собой персональный компьютер? Академик А.П. Ершов определял его как массово выпускаемую организованную совокупность средств ввода, обработки, хранения, передачи и воспроизведения информации, находящуюся в полном распоряжении своего пользователя. Эта совокупность включает микропроцессор, основную память (постоянную и оперативную), внешнюю память(накопители на жест- ком или гибких магнитных дисках), дисплей (монитор), клавиатуру, а также устройства для печати текстов и изображений (принтер) и для связи с другими компьютерами по телефонным каналам (модем). В дешевых компьютерах дисплей и дисковод прежде могли заменяться бытовым телевизором и кассетным магнитофоном, а принтер — электрической пишущей машинкой.
Стоимость персонального компьютера непрерывно снижается и соразмерна со стоимостью такого бытового прибора как телевизор. Поскольку дальше дается краткая характеристика каждого из основных устройств персонального компьютера, хочу оговориться, что к приводимым мною данным нужно отнестись критически. Они быстро стареют, поскольку электронная техника развивается стремительно, а издательские процессы в нашей стране пока еще неторопливы.
Микропроцессор, управляющий работой всех остальных компонентов, является центральным (хотя и, малозаметным) устройством компьютера. Его вычислительная мощность характеризуется разрядностью, т.е, размером информационного слова, как бы задающим ширину тракта передачи данных, и частотой тактового генератора, обеспечивающего скорость каждого шага выполняемых машиной операций. Первые персональные компьютеры имели 8-разрядный процессор, т.е. работали со «словом», равным 8 битам (или 1 байту). Другими словами, они передавали за один такт одну букву или две. цифры. Сейчас распространены 16-, 32-, 64-разрядные микропроцессоры, а тактовая частота их работы за несколько лет возросла от 12 МГц до 2 ГГц (млрд. периодов в сек.).
Основная память состоит из постоянного запоминающего устройства и оперативной памяти (с произвольной выборкой). В постоянной памяти навсегда записаны самые основные про- граммы, которые работают сразу после включения компьютера, преобразуют в коды команды, связанные с нажатием определенных клавиш. По мере увеличения объема основной памяти в ее постоянную часть стремятся записать все большее число системных программ.
Запоминающее устройство с произвольной выборкой (оперативная память) служит для записи в основную память операционной системы, транслятора и прикладных программ, необходимых в данный момент для выполнения работы. Они считываются из внешней памяти накопителей на магнитных дисках. Минимальный объем основной памяти в персональном компьютере — 64 Кбайт (что составляет 64х1024 байт, или 65536 алфавитных знаков, включая пробелы, или 36,4 машинописных страниц, или 1,6 авторского листа). Стандартные объемы оперативной памяти современного персонального компьютера варьируют от 16 до 512 Мбайт.
Внешняя память персональных компьютеров первоначально выполнялась на стандартной магнитофонной ленте в кассетах. Теперь она реализуется накопителями на магнитных дисках, которые подразделяются на жесткие и гибкие. Жесткие (твердые) диски обычно встраиваются в один корпус с процессором, являются несъемными и обеспечивают высокую плотность записи и объем хранимой информации от нескольких сотен Мбайт до не скольких десятков Гбайт. Их обычное название «винчестер» объясняют тем, что их первоначальное устройство — два диска по 80 Кбайт — напоминало английскую двустволку такого же калибра, а по другой версии, что технология их изготовления была разработана в г. Винчестере.
Гибкие диски получили название дискет (флоппи-дисков), представляют собой сменные магнитные диски размером 3,5 дюйма в пластмассовом корпусе. Они могут хранить файлы общим объемом до 1,4 Мбайт. Имеются специальные накопители на сменных дисках большего объема — от 100 Мбайт до не скольких гигабайт. Однако они быстро вытесняются более дешевыми компакт-дисками CD-ROM с возможностью записи (R) и перезаписи (RW) объемом до 700 Мбайт.
В настоящее время в качестве внешней памяти широко используются именно эти оптические компакт-диски, позволяющие хранить десятки Мбайт информации. Они представляют собой две склеенных стеклянных пластины диаметром 30 см., на внутренние поверхности которых нанесен тончайший слой теллурового сплава. Лучом лазера на это покрытие наносится Свыше 30тыс. спиральных дорожек, разделенных на сектора для облегчения к ним доступа. На этих дорожках затем выплавляются углубления изменяемой величины (около микрона) в зависимости от интенсивности лазерного луча, которая модулируется сигналами компьютера. Так производится первоначальная запись данных.
Считываются эти углубления лучом меньшей мощности, отражение которого воспринимается фотоэлементом, преобразующим световые импульсы в электрические сигналы. Обычные компакт-диски для компьютеров штампуются как аудио- или видеодиски, так что выдавленную на них информацию изменить нельзя. Записываемые и перезаписываемые на компьютере диски устроены более сложно и их тиражирование значительно дороже.
Дисплей (экран телевизора или монитора) — основное устройство отображения информации, выводимой во время работы компьютера. Дисплеи бывают монохромными и цветными, отличаются по размерам, форматам (числу строк и символов в строке), разрешающей способности (числу светящихся точек по горизонтали и вертикали), числу уровней яркости или цветов. Обычные дисплеи позволяют одновременно видеть на экране лишь часть страницы текста. В монохромных дисплеях оптимальным является адаптер «Hercules», в цветных последовательное повышение качества реализуют CGA, EGA, VGA и SVGA (Color-, Extended-, Video-, Super Video-Graphic Adapter).
В настоящее время все большее распространение получают жидкокристальные дисплеи, которые сначала встраивались в ноутбуки, а теперь применяются вместе с настольными компьютерами. Они занимают меньше места, потребляют меньше энергии, лучше используют поверхность экрана, у них меньшее излучение, нет не замечаемого, но вредного для зрения подрагивания изображения. Но пока они вдвое дороже мониторов с лучевой трубкой.
Клавиатура служит средством ввода информации и управления работой компьютера путем нажатия клавиш, которые подразделяются на алфавитно-цифровые, функциональные, редактирующие и управляющие. Алфавитно-цифровые клавиши располагаются так же, как на пишущей машинке (по прежнему стандарту буквы латинского алфавита располагались по транслитерационному принципу, т.е. А-А, В-Б, С-Ц и т.д.). В .отличие от терминалов больших вычислительных машин клавиатура персональных компьютеров передает в микропроцессор не код символа, а по- рядковый номер и интервал длительности нажатия клавиши.
Функциональные клавиши могут менять значение других, управляют системными программами, вызывают на экран стандартные элементы графики, Редактирующие клавиши управляют движением курсора (движущейся по экрану световой точки, прямоугольника или мигающей черты) который обозначает позицию очередного символа. Курсором можно управлять также при помощи специальных устройство «мыши» (полусферы, передвигаемой рукой по поверхности планшета), «джойстика» (используемого в динамических компьютерных играх) или «светового пса» (позволяющего менять изображение путем прикосновения к любой точке экрана).
Принтеры (печатающие устройства) служат для вывода информации на бумагу. По способу действия они делятся на матричные (головка с иглами, управляемыми матрицей знаков), ромашковые (сменные лепестковые шрифтоносители), термографические (тепловое воздействие на специальную бумагу), струйные (распыление струи специальных чернил), лазерные (оптическая печать лучом лазера). Матричные принтеры первоначально получили наибольшее распространение, так как они быстрее ромашковых (до 200 зн/сек против 50 зн/сек) и позволяли печатать не только текст, но и любые изображения, неприхотливы к качеству бумаги и значительно дешевле. других. В на- стоящее время наиболее распространены лазерные и: струйные принтеры. Последние дешевле лазерных при покупке и дороже в эксплуатации при почти таком же качестве печати и незначительно меньшей скорости.
Важной характеристикой персонального компьютера является надежность. Он предназначен для устойчивой работы в бытовых условиях, без особых требований к температуре. влажности и чистоте окружающего воздуха, к колебаниям напряжения или выключению тока в электросети. При последнем, правда. уничтожается содержание оперативной памяти (т.е. все наработанное с момента включения компьютера, если его периодически не сохранять). И при этом персональный компьютер обладает почти всеми возможностями большой вычислительной машины, для которой упомянутые требования крайне существенны.
Нельзя не упомянуть о том, что появление персональных компьютеров не было предвидено профессионалами. Фирма IBM в начале 70-х гг. заказала мозговому тресту «RAND Corporation» прогноз развития ЭВМ, который стоил десятки миллионов долларов. В нем не было упоминания о такой возможности, хотя Джобс и Возняк, вероятно, уже работали над своей «Лайзой». Идеологи отечественной информатики вынуждены были признать, что персональный компьютер вошел в вы числительное дело с черного хода и взломал сложившиеся представления и в технологии и в программировании. Однако в настоящее время ряд компьютерных фирм разрабатывает идею «сетевого компьютера», который противопоставляется персональному, поскольку будет выполнять роль удаленного терминала больших машин в сети вычислительных центров с распре. деленным банком данных.
Появление и широкое распространение персональных компьютеров — явление революционное, вызвавшее к жизни феномен персональных вычислений. Он заключается в том, что конечные пользователи —специалисты в самых разнообразных отраслях науки техники, народного хозяйства, культуры получили непосредственный доступ к машине, перестали нуждаться в профессиональных программистах. Существовавшее до сих пор положение, когда специалист, решавший свои задачи на машине, должен был объяснять их программисту, сильно сдерживало применение ЭВМ.
Как правило, существо решаемой задачи и ее особенности полностью раскрываются в процессе решения. Поэтому предварительная постановка задачи перед программистом всегда отличается неточностью и приблизительностью. Программист же, формализуя и уточняя задачу, стремится к краткости и изяществу программы, к экономии вычислительных ресурсов машины, пренебрегая деталями задачи, которые могут быть важными для ее решения. Поэтому неуклюжие и громоздкие программы, составленные конечными пользователями, часто отличаются от стройных и лаконичных профессиональных программ тем, что они работают более эффективно, лучше решают задачи специалистов.
Таким образом, феномен персональных вычислений заставляет нас по-новому взглянуть на проблему взаимоотношений машины и пользователя, которая существенна для решения таких глобальных задач, как всеобщая компьютерная грамотность или информатизация общества. Решение этих проблем, ставших в полном смысле социальными, требует не только и даже не столько овладения средствами вычислительной техники и их программирования. Они вызывают необходимость пересмотра отношения специалистов к существу своего дела и решаемых в нем задач. Ведь их решение при помощи компьютера вынуждает формализовать эти задачи, искать алгоритмы выполнения многих процессов, включая и интеллектуальные.
Это новое явление Г.Р. Громов удачно назвал автоформализацией профессиональных знаний, и оно намечает тот путь, по которому информатика проникает во многие другие области знаний. Особая ситуация складывается в программировании.
Дело в том, что овладение основами информатики часто понимают как обучение началам программирования, на одном из простых языков, обычно на Бейсике.
Это создает у пользователя иллюзию умения программировать и подчас приводит его к большим затратам времени и сил с минимальным результатом при решении вычислительных задач, для которых имеются хорошие профессиональные программы. Поэтому компьютерная грамотность предполагает в первую очередь хорошее знание всех типов прикладных программ, умение выбрать те конкретные программы, которые адекватны решаемой задаче, и навыки в работе с ней. Тем не менее, общее представление о языках программирования и их эволюции необходимо каждому, приобщающемуся к интеллектуальной коммуникации.
.
РАБОТА С ТЕКСТОМ НА КОМПЬЮТЕРЕ
Когда мы по-русски говорим «компьютер», то представляем себе некоторое устройство, которое нужно запрограммировать, чтобы оно заработало. Американцы, которые, естественно, думают на своем английском, представляют себе компьютер сразу состоящим из двух частей — «твердой» («хардуэр») и «мягкой» («софтуэр»), что на русский язык казенно переводится как аппаратные и программные средства вычислительной машины. Это различие в понимании отражает и некоторую реальную ситуацию: у нас первая составляющая компьютера стоит во много раз дороже второй. У них наоборот. Умственный труд они ценят много дороже промышленного, что обычно для развитых стран.
В наши дни особое внимание уделяют составлению текстовых описаний к новым программам, поскольку освоение этих программ требует большого труда и занимает много времени. Возникла насущная проблема составления таких описаний к программам, которые были бы понятны обычному или даже начинающему пользователю. Она достигла столь большой остроты, что появилась специальная профессия «технических писателей», так как программисты не могут понять, что именно затрудняет пользователей при освоении их программ.
Не будучи специалистом, трудно говорить о вычислительных машинах, но еще труднее об их программировании. Дело в том, что сама сущность программирования, кажущаяся такой простой на элементарном уровне машинных кодов, оказывается крайне сложной для формулирования. Может быть, поэтому авторы, популяризирующие искусство (или науку, как полагают некоторые) программирования, так любят прибегать к аналогиям, которыми сами почти всегда остаются недовольны.
Сравнение компьютера с автомобилем, а программирования — с управлением механистично и мало что объясняет, компьютера с телевизором, а программы — с передачей, которую он принимает, тоже отражает лишь внешнюю сторону дела. Пожалуй ближе всего к существу отношений компьютера с его программой сравнение их с музыкальным инструментом и нотами. Действительно, комбинацией нескольких нотных знаков можно записать любое музыкальное произведение, а пределов для творчества композиторов и исполнителей не существует. Так и программа, написанная на одном из специальных языков, в котором используется ограниченный набор символов, служит для решения многих творческих задач, от простых вычислений до игры в шахматы. Но и здесь сходство сводится к идеальности и многообразию содержания информации и материальности и ограниченности средств ее фиксации и воспроизведения.
Любая, самая сложная программа формальна и определяется алгоритмом решения задачи. Вместе с тем, возможность или границы формализации человеческого мышления, которое стремятся моделировать при помощи компьютера, пока еще не под- даются определению. В преодолении этого противоречия; в на- хождении путей его: разрешения скрыт важный фактор дальнейшего развития данной проблемной области. По всей вероятности, задача такого уровня должна решаться не одними программистами и информатиками, но всем научным сообществом. Это один из серьезных стимулов достижения всеобщей компьютерной грамотности. А. Кэй, из статьи которого взяты некоторые сведения о языках программирования, писал. об этом в следующих выражениях:
«Грамотность применительно к компьютерам — это проникновение в суть процессов программирования, причем достаточно глубокое, чтобы было легко и приятно производить вычисления и решать различные задачи на ЭВМ, подобно тому, как истинно грамотный человек может свободно читать и писать. Как и в любом искусстве, здесь необходимо хорошо знать и любить материал. Если мы полагаем важным овладеть литературой и искусством для развития человека и общества, то имеем ли мы право меньше усилий тратить на то, чтобы сделать вычислительные средства и методы частью нашей жизни».
История современных языков программирования насчитывает всего лишь пять десятилетий, если считать от момента создания языка Планкалкюль немецким инженером К. Цузе в 1946 г. С тех пор появились сотни языков программирования, а с вариантами, возможно, тысячи. Конечно, не все они употребляются на практике, и если бы их развитие шло другим путем, их могло бы быть и меньше. Но их многообразие оправдано, так как нельзя создать язык, пригодный для всех случаев. Язык должен быть пригоден для решения данной задачи на данном компьютере и удобен для программиста. При всех различиях языков программирования все они, в конечном счете, сводятся к высоким и низким уровням электрического напряжения, соответствующим единицам и нулям - двоичного кода. Комбинации единиц и нулей могут интерпретироваться компьютером как адрес в его памяти, фрагмент обрабатываемых данных или команда выполнить определенное действие. Язык самой машины — машинный код — очевиден и однозначен для каждого вида компьютеров. Но эта последовательность нулей и единиц противоестественна для памяти человека, хотя несколько поколений программистов работали только в машинных кодах. Программа может состоять из миллионов комбинаций единиц и нулей, и ошибка лишь в одном знаке приведет к неправильной работе всей программы.
Это повело к созданию языков ассемблера, в которых двоичные последовательности были заменены символами и словами. Первым таким языком был ассемблер компьютера «Эдсак», созданный в 1949 г. английским математиком М. Уилксом. Разумеется, ассемблеры проще и мнемоничнее машинных кодов, в них можно создавать инструкции для определенных действий. Однако каждая команда должна определяться отдельно и за ее прохождением в машине нужно следить. Кроме того, ассемблер жестко связан с типом компьютера, для которого ан создан.
Ограниченность ассемблеров была преодолена в языках более высокого уровня. Первым распространенным языком высокого уровня явился Фортран, разработанный в 1954-1957 гг. Дж. Бекусом в фирме IBM и до сих пор применяемый для научных расчетов. Поскольку его применение занимало много времени «тихоходных» в то время машин, для него был создан компилятор, переводивший его программы в машинный код, Это положило начало особым видам программ — т р а н с л я т о р а м, которые для каждого типа компьютеров переводят программы, написанные на языке высокого уровня, в их машинный код.
Они бывают двух видов — компиляторы и интерпретаторы. При использовании к о м п и л я т о р а весь цикл трансляции завершается до начала выполнения программы, так что прохождение этой программы требует меньше времени. Программа, составленная на интерпретаторе, записывается в оперативную память в виде команд на языке высокого уровня, каждая из которых транслируется в машинный код по мере прохождения программы. Это требует больше времени, но дает оператору возможность контролировать результат каждой операции.
Все исследования в области программирования с 1957 г. стимулировались стремлением усовершенствовать Фортран, который подвергался неоднократным переделкам. Стало появляться большое число языков, что беспокоило программистов, которые создали Международный комитет для выработки единого языка программирования (КОДАСИЛ). Результатом работы комитета явились два языка, до сих пор широко распространенные у пользователей, эксплуатирующих большие машины. Один из них, Ко б о л был разработан для выполнении однородных операций над большими массивами чисел. Он применяется в сфере бизнеса и эффективен при простых арифметических вычислениях. Две трети конторских программ на Западе все еще написаны на Коболе. Но как универсальный язык, к которому по тем временам все стремились, он был неудовлетворителен. Вторым языком стала первая версия А л го л а (1956 г.), который хотя и не стал желанным универсальным языком, но в последующих версиях сохраняет значение многоцелевого средства.
Тогда же Дж. Маккарти из Массачусетского технологического института создал язык Л и с п, в котором программы и данные представляются в виде списков. Его простота и сила определяются тем, что в нем применяется только один вид команд — вызов функции, а ее значением может быть другая функция. С тех пор он стал популярным в исследованиях по искусственному интеллекту и послужил моделью для многих других языков. Для персональных компьютеров чаще всего используется Б е й с и к, разработанный в 1965 г. Дж. Кемени и Т. Курьем из Дартмутского колледжа в США. Он предназначался для изучения вводного курса программирования, но затем стал популярным среди программистов непрофессионалов. Каждая строка программы на этом языке обозначается номером, а управление прохождением программы в основном осуществляется путем указания этих номеров.
Близок к нему и язык Паскаль также первоначально созданный для обучения студентов в 1970 г. Н. Виртом, преподавателем Федерального технологического института в Цюрихе. В отличие от Бейсика в нем необходимо объявлять каждую перед медную и указывать ее тип, а процедуры и функции обозначать не номерами строк, а именами функций, что облегчает чтении программы. Решая какую-либо задачу, специалист не может. оперировать двоичными кодами, регистрами и адресами машину ной памяти. Он мыслит формулами своей науки, например,
«Площадь = длина Х ширина»,
«Прибыль = доход — затраты».
Действия, описываемые этими формулами, транслируются в
машинные коды компиляторами и интерпретаторами, которые можно считать средствами реализации языка программирования, На этом и были основаны такие языки программирования, как Фортран, паскаль, Бейсик.
Эти и подобные им языки называются процедурными. Каждый такой язык как бы предоставляет программисту некую виртуальную (воображаемую) машину. Составляя программу пользователь видит решение своей задачи, как, процесс вычисления,
осуществляемый этой виртуальной машиной. Тем самым сразу описывается и задача, и метод ее решения. Появились непроцедурные стили программирования — функциональный, логический — и соответствующие языки. Основная идея логического программирования — отделение описания задачи от процесса ее решения — была выражена в уравнении одного из его авторов Р. Ковальского:
«Алгоритм = логикам управление».
Наиболее распространенный язык логического программирования П р о л о г был создай в 1972 г. А. Колмари из Марсельского университета. Программа на Прологе состоит из описаний, задающих объекты и отношения между ними. Например, формула
«Площадь = длина х ширина»
описывается отношением «Произведение, длина, ширина, площадь». Описание это статическое и никаких вычислений оно не задает. Но компьютер производит их сам по запросу, и по любым в данном случае двум величинам может вычислить третью, т.е. по площади и ширине — длину. Независимо от зарубежных работ в СССР в 70-е годы В.Б. Борщевым и М.В. Хомяковым (ВИНИТИ) также разрабатывалась версия логического программирования,
Многие современные компьютерные системы используют язык Си, созданный в 1972 г. Д. Риччи в лабораториях «Белл Телефон» корпорации АТТ в Мюррей-хилл (шт. Нью-Джерси). Первоначально он разрабатывался для программировании новой операционной системы Ю н и к с. Операционная система предназначена для приема, хранения и выдачи информации, а также для взаимодействия аппаратных средств компьютера с прикладными программами. Си стал популярным как язык так называемого среднего уровня. В нем удобство, краткость и мобильность языков высокого уровня сочетаются с возможностью непосредственного доступа к машине, что традиционно обеспечивалось ассемблером, т.е. языком низкого уровня.
Другая. важная тенденция. в развитии программирования связана с объектно-ориентированными языками. В них процессор машины условно делится на «объекты», которые могут программироваться индивидуально, а затем соединяться друг. с другом при помощи сообщений. В числе подобных языков: С и м у л а-67 (О. Даль и К. Нигард из Норвежского ВЦ в Осло), С м о л л то к (1970 г., А. Кей из фирмы Ксерокс, Пало- Альто), Э у р и с к о (1979 г., Д. Ленат из Стэндфордского университета).
Прикладные программы подготовки текстов
Среди профессиональных программистов бытует мнение, что пользователям непрограммист гам не следует увлекаться программированием, а лучше применять уже готовые программы. Это отчасти противоречит высказанной в прошлой лекции идее о необходимости формализации специальных знаний и том пре имуществе, которое получают специалисты различных областей знания после овладения навыками работы с персональным компьютером. Но есть в этом мнении и рациональное зерно. Оно заключено в том, что в настоящее время разработано множество эффективных программ для решения самых разнообразных задач, и неразумно начинать по дилетантски составлять программу, не убедившись что она существует. Еще справедливее это в отношении обучения основам информатики, когда, начиная со школы, учат только алгоритмическому мышлению и одному из простейших языков, обычно Бейсику, и не дают представления о богатстве существующих прикладных программ.
Программное обеспечение вычислительных машин можно условно разделить на системное и прикладное. К системному относятся операционные системы, о которых говорилось выше, и средства диагностики и контроля. Прикладное — это пользовательские программы решения разнообразных задач, которые объединяются в совокупности по классам решаемых задач и называются пакетами прикладных программ. К ним примыкают также библиотеки стандартных программ, которые часто используются для вычислений, решения уравнений и операций обработки данных — их сортировки, копирования и т.п.
Для нас наиболее важными являются те пакеты, которые применяются для подготовки текстов. Они получили название текстовых редакторов, но часто называются также текстовыми процессорами, системами обработки (подготовки) текстов. Текстовому редактору всего два с небольшим десятилетия. Его создателем считается М. Шредер., кинорежиссер из Нью-Йорка, который в 1975 г. реконструировал компьютер «Альтаир» и со- ставил программу «Электрический карандаш», для подготовки руководств к своим программам. В 1978г. Нью-йоркские программисты С. Рубинштейн и Дж. Барнэби создали текстовый редактор «Уорд Стар», который определил стандарт. таких программ для персональных компьютеров.
Ввод текста при помощи такой программы осуществляется как на пишущей машинке: буква за буквой с пробелами между словами. а в конце строки (в современных программах — абзаца) нажимается клавиша возврата каретки (ВК, Ввод, Enter). Ни какой каретки, конечно. в компьютере нет, а под воздействием этой клавиши производится ввод набранной строки в память, а курсор (светящаяся или мигающая точка на экране) перемещается в начало следующей строки. Если набранный текст нужно исправить или отредактировать, курсор можно вернуть в любую его точку нажатием одной из редактирующих клавиш (управляющих команд) влево/вправо на одну букву, слово или в начало/конец строки, вверх/вниз на одну строку или же в начало/конец всего текста (см. рис 13).
Исправление производится при помощи одной из процедур удаления, перемещения вставки, замены. При удалении необходимо отметить начало и конец удаляемого фрагмента. программа по команде стирает слово и убирает пробел, сдвигая оставшуюся часть строки влево. Чтобы переместить фрагмент текста, нужно тоже его отметить, установить курсор в то место, куда фрагмент перемещается, и дать команду, по которой программа изменит порядок считывания текста и соответственно перестроит его на экране.
Вставка и замена это не только процедуры исправления, но и режимы работы текстового редактора, в одном из которых про- грамма работает обычно («по умолчанию»), а другой вводится специальной клавишей. В режиме вставки часть строки, начинающаяся с курсора, при нажиме буквенной клавиши отодвигается вправо, освобождая эту позицию для вводимой буквы. В режиме замены вводимая буква забивает прежнюю. Так же работают в этих режимах и клавиши стирания букв — со смыканием текста в позиции стертой буквы или же с заменой ее пробелом.
Здесь приводятся лишь самые элементарные процедуры электронного редактирования. Возможности современных текстовых редакторов многообразны и зависят лишь от объема программы, соотносимой с размерами оперативной памяти компьютера. В их возможности входит дублирование строк и фрагментов текста, запоминание и выдача в нужный момент стандартных текстов любого объема, набор текстов в нескольких окнах с последующим их совмещением в произвольном порядке, запоминание исходного (не редактированного) текста и многие другие процедуры.
По окончании редактирования текст может быть отформатирован, т.е. выровнен по правому и левому краям, напечатан целиком или частями с отступом на любое число позиций, Для просмотра текста на экране его можно сдвигать вверх или вниз построчно или постранично. Обычно на экране размещается до 25 строк (одна из них служебная) по 64 или 80 знаков в строке. Но имеются и такие редакторы, которые позволяют «верстать» широкую полосу в две колонки по 60 знаков с пробелом, сдвигать текст на экране вправо/влево. Большинство программ осуществляют функцию поиска отдельных слов и словосочетаний по всему тексту с их заменой на другие слова й словосочетания.
Строго говоря, текстовый редактор служит для ввода текста в компьютер, а для вывода его. на принтер служит другая программа системы подготовки текста — ф о р м а т и з а т о р. Эта программа предназначена для оформления текста в соответствии с нормами, сложившимися в полиграфии, т.е. выравнивания правого края, абзацных отступов, центровки заголовков, простановки номеров страниц, установки расстояний между строками. По мере совершенствования принтеров и форматизаторов стало возможно разнообразить шрифты, менять ширину отдельных букв, печатать подстрочные и надстрочные индексы и формулы в математических текстах, таблицы, верстать страницу с много колонным набором и включением иллюстраций. Особая задача форматизатора — автоматически осуществлять перенос слов в соответствии с грамматическими правилами. Все это позволяет приблизить набранный на компьютере текст к полиграфическому и в каждый момент его написания и редактирования иметь его полностью готовым к печати.
Все большее распространение в системах подготовки текстов получают программы, позволяющие непосредственно производить автоматическую корректуру — а в т о к о р р е к т о р ы (спеллеры или спеллчеккеры). Первоначально они строились на статистической основе и давали возможность после набора всего текста вывести на экран слова, в которых сумма номеров букв оказывалась единичной. Такие слова, один раз встретившиеся в тексте, чаще всего содержали ошибки. Этот метод, не требовавший большой оперативной памяти компьютера, не был особенно удобным и удовлетворительно работал только на сравнительно больших текстах. Поэтому с увеличением оперативной памяти он постепенно был заменен сначала полиграммным, а затем словарным методом.
Полиграммный метод основан на том, что все двух и трех буквенные сочетания проверяются на их допустимость в данном языке. Если в тексте встречаются слова с недопустимыми би- и триграммами, то они выводятся на экран как сомнительные. При словарном методе все набираемые слова сразу или после набора всего текста сопоставляются с находящимся в памяти машины словарем, объем которого достаточно велик (обычно от 40 до 120 тыс. слов). Понятно, что такая программа должна учитывать всю парадигму словоизменения в данном языке, что гораздо проще сделать в английском, нежели в русском языке. Автоматизация корректуры может состоять из обнаружения ошибок, предложений по их исправлению или же собственно их коррекции. Понятно, что две последние возможности необходимы людям, неуверенным в своей грамотности, и требуют усложнения и значительного увеличения программы.
Однако, стремясь сделать подготовку текста более комфортной, а сами тексты более совершенными, а также учитывая воз росшую потребность в составлении текстов на неродных для пишущего языках, составители программ идут на эти усложнения. Начали появляться программные системы, в которых словари содержат не только средства нормализации слов, но и такие смысловые связи между ними, как синонимия, омонимия, полисемия, антонимия, отношения «род-вид», «часть-целое» и т.п. Справочники, содержащие подобные сведения, составляются уже давно, применяются в информационном поиске и получили название т е з а у р у с о в, Они позволяют при написании текста на компьютере вести стилистическую правку, а главное, предлагают автору выбор отдельных слов и выражений; продолжение фразы в стандартных оборотах, подсказывают устойчивые словосочетания, управление глаголов и предлогов и оказывают другие лексические услуги.
Существуют сотни всевозможных программ с редакторами текстов, пакетов прикладных программ подготовки текстов с редакторами, форматизаторами, автокорректорами. Многие из упомянутых .языков программирования (Бейсик, Паскаль, Си) имеют редакторы, пригодные для ввода не только программ на этих языках, но. и текстов на естественном языке. Программная среда, часто надстраиваемая над операционной системой и облегчающая использование ее средств (в персональных компьютерах ИБМ это обычно «Нортон коммандер»), тоже, как правило, имеет текстовый редактор. Пользователи ДОС-совместимых машин предпочитали популярные полтора-два десятилетия на зад пакеты. среди которых заслуживают упоминания: из американских — «Word5», «WordStar», «WordPerfect», «ChiWriter», а из отечественных — «Лексикон» (Москва; ВЦ РАН, 1985 г.).
Каждая из этих программ имела свои особенности и сферы применения. «Word» фирмы «Microsoft» располагал таким богатством шрифтов и средств верстки, что при наличии лазерного принтера мог обеспечить настольную издательскую систему возможностями, превышающими полиграфические. «ChiWriter» был незаменим при наборе математических текстов, так как позволял легко писать формулы, под и надстрочные индексы.
Для русскоязычных текстов получил широкое распространение «Лексикон» (автор Е.Н. Веселов) — многооконный текстовый процессор с русским знакогенератором (которым можно было пользоваться на компьютерах и принтерах западного производства без их переделки). Его версия «Лексикон-Ортодокс (авторы Е.Н. Веселев и А.Б. Борковский) осуществлял перенос русских слов, располагал словарем русского языка на 100 тыс. слов (на базе известного словаря академика А.А. Зализняка). Другой русский спеллчеккер «Орфо» при помощи словаря в 120 тыс. слов не только проверял правописание, но и выявлял ошибки согласований в предложениях находил опечатки в знаках препинания, легко «обучался» новым словам.
Все это теперь история. Головокружительный прогресс наблюдается не только в развитии вычислительной техники и ев периферии, но и в программном обеспечении. В России и во всей Европе практическим стандартом и системных и прикладных программ стала продукция фирмы «Microsoft», которая обновляется ежегодно. Это приводит к тому, что в обращении одновременно находятся сразу многие версии программ. Для системных программ — это Windows 95, 98, Ме, 2000, ХР. Из прикладных программ большинство пользователей остановилось на Office97, хотя Office2000 и ХР предоставляют значительно большие возможности, оставаясь совместимыми с программой 1997 г.
Статьи, монографии, деловые документы редко состоят из одного только текста. В них содержатся расчеты, таблицы, графики, диаграммы, указатели. Для выполнения всех этих элементов деловых бумаг недостаточно. описанных возможностей текстового редактора, как бы ни были они велики. Поэтому к системе подготовки текста примыкают еще три программы; «электронная таблица», «диалоговая графика» и «база данных», которые вместе с текстовым редактором как бы образуют упряжку четырех «рабочих лошадей» для человека, использующего компьютер при подготовке разного рода документов и публикаций. В фирме «Microsoft» такой пакет и составляет Office.
Первая электронная таблица «Визикальк» была разработана Д. Бриклиным и Р.Фрэнкстоном в 1978 г. При составлении отчета, например, или сметы часто приходится пересчитывать длинные колонки взаимозависимых чисел, что делает эту работу весьма утомительной Электродная таблица, представляет собой прямоугольную матрицу, состоящую из ячеек, в каждой из которых может быть помещено значение, зависящее от значений других ячеек (например, их сумма или разность). При изменении значения одной ячейки, в остальных значения пересчитываются автоматически в зависимости от ранее заданных формул. Таким образом, любая бухгалтерская, кадровая ведомость или инженерная таблица может всегда находиться в готовом виде, независимо от частоты введения в нее данных.
Таблицы всегда мало иллюстративны. Чтобы проследить динамику тех или иных изменений, можно изобразить их наглядно в виде графика или гистограммы, а статическое распределение лучше всего видно на диаграмме. Диалоговая графика позволяет перевести данные электронной таблицы в одну из этих изобразительных форм, причем они автоматически изменяются при изменении данных таблицы. Первый такой промышленный па- кет программ был разработан для персональных компьютеров ИБМ М. Кэпором в1982 г. под названием «Лотус 1-2-3». Эти программы позволяют также выполнять на компьютере любые рисунки: блок-схемы, чертежи, произвольные иллюстрации с заштриховкой или без нее, рамки, виньетки и другие украшения.
Наконец, еще одной широко распространенной программой, завершающей этот ряд, является «база данных». Она принадлежит к числу так называемых систем управления базами данных (СУБД) и позволяет создавать в машине структурированное хранилище большой емкости для информации. которую можно разыскивать по разным элементам. Создатели этого программного средства американцы У. Рэтлифф, Дж. Тейт и Х. Лашли назвали его «диБейсII», хотя никакой «первой» версии не существовало, Это был просто «ход» в рекламной кампании, развернутой в 1981 г. и увенчавшейся миллионным успехом. Фирма «Тейт» распространяет новые версии «диБейс», а программы данного типа повсеместно используются в персональных компьютерах для со- здания разного рода справочных и фактографических систем.
Рассказ об этой «большой четверке» самых употребительных прикладных программ нельзя закончить, не упомянув о том, что теперь они, как правило, объединяются в одну интегрированную систему. На Западе известны среди таких систем
«ФреймУорк», «НолиджИн», «ЛотусДжаз», «Парадокс», у нас подобную интегрированную систему «Мастер» создал Е.Н. Веселов в 1989 г. для компьютеров с дисковой операционной системой (ДОС). Она объединяла текстовый редактор «Лексикон» с тремя другими описанными компонентами и распространялась. советско-американским предприятием «Диалог» при ВЦ АН СССР. Она имела версию, работавшую под Windows, но не могла конкурировать с пакетом «Microsoft». В настоящий момент наиболее распространенным интегрированным пакетом прикладных программ, как уже сказано, является «Офис» фирмы «Майкрософт». Русифицированные версии «Office», включают текстовый редактор «Word», электронную таблицу «Excel», базу данных «Access» и редактор для презентации слайдов «PowerPoint»,
Быстрый прогресс программного обеспечения подготовки текстов объясняется рядом причин. Некоторые из них мы обсуждали в прошлой лекций Делопройзводством, составлением, редактированием и изданием текстов в мире заняты сотни миллионов людей. В США 80-х годов больше половины всего занятого населения было связано с обработкой текстов. Поэтому повышение производительности труда в этой сфере, которую справедливо называют информационной, имеет большое значение. И любая мелочь, не предусмотренная стандартами, оборачивается огромными потерями рабочего времени.
Приведу примеры. В пишущей машинке при переводе рычага совмещены две операции: возврат каретки и перевод строки. В компьютере этим операциям соответствуют два разных кода. В программах эта избыточность устранялась по-разному либо оставлялся для обеих операций код одной из них, либо вводился для них совмещенный. Таким образом, существовали четыре варианта кодирования этой простейшей и повторяющейся на каждой строке команды, в результате чего тексты в машиночитаемой форме нельзя было прочитать в разных устройствах,
Эта неоднозначность была устранена с введением Американского стандарта кодирования символов (АНСИ), который стал международным. Но для русских букв коды в нем не были предусмотрены, а при их добавлении возникли варианты; Если учесть, что для других языков, пользующихся русским письмом (болгарского, сербскохорватского), были созданы новые варианты, то проблема кодирования кириллических букв никак не могла считаться решенной.
Если добавить к этому, что существовали два отечественных стандарта для расположения латинских букв на клавиатуре (старый и новый), по которым до недавнего времени изготавливались компьютеры разных типов, то актуальность стандартизации становится очевидной. В операционной системе «Windows» был использован новый американский стандарт (АХЯ1), в котором буквы русского письма получили постоянное место (под не вполне верным названием «кириллица»).
Но и на этом мытарства русского письма (как его надо правильно называть) не закончились. При переходе от Offtce97 к Office2000 была изменена разрядность основных шрифтов (Times New Roman, Arial, Courier New, Thames), и русские буквы снова сменили, свои кодовые номера. что создает затруднения при переходе от более поздних версий Office к более ранним..
В заключение хотел бы подчеркнуть еще одно обстоятельство. Как мы выяснили, компьютеры берут на себя выполнение все более сложных процессов подготовки оригинал-макета для печати: перенос слов по правилам, размещение на странице заголовков, сносок, формул, таблиц, рисунков, верстку полос и т.п. Все это теперь не требует специального программирования, а создается непосредственно на экране при помощи клавиатуры. устройств «мышь» или «световой карандаш».
На языке программистов такой «дружественный». интерфейс между. машиной и пользователем называется с «ВИЗИВИГ» (аббревиатура английского выражения «Что вы видите, то вы получите» — What you see is what you get — WYSIWYG). Перефразируя это по-нашему, можно сказать, что электронные средства подготовки текстов позволяют «резать и клеить» тексты и рисовать на экране, одновременно отражая это в оперативной памяти компьютера.
«Понимание» текста на естественном языке
Многие процессы информационной деятельности: поиск ин- формации, ее отбор, аналитико-синтетическая переработка, распространение — все это процессы, связанные с чтением, пони- манием (извлечением смысла) и формулированием текста на естественном языке. Вот почему автоматизация этих процессов занимает важное место при разработке новых информационных технологий. Впервые информационные работники вплотную столкнулись с этой проблемой, когда в начале 50-х годов начались интенсивные эксперименты по машинному переводу. По этому поводу существуют разные мнения, о чем говорилось в лекции об информационных системах.
Моя позиция заключается в.том, что адекватный перевод текстов с одного естественного языка на другой,— задача, не имеющая однозначного решения. Всегда можно получить несколько разных переводов одного. и того же текста, в отношении которых допустимо говорить, что они достаточно близки к оригиналу и стилистически корректны, причем степень того и другого не поддается измерению. Подтверждение этой мысли можно найти, если рассматривать эти переводы в диахронии; т.е. на протяжении некоторого времени. Оригинал художественного произведения всегда остается неизменным, а перевод быстро устаревает и нуждается в обновлении. А раз так, то и формализовать эту за дачу для ее машинного решения можно лишь в зависимости от формализованности оригинального текста.
Обсуждая возможность адекватного перевода, полезно представить мысленно некоторую шкалу, на которой расположены разные типы текстов различной степени переводимости, На левом краю шкалы находятся поэтические тексты, в отношении которых термин «перевод» применяется условно, поскольку здесь речь идет о переложении поэтических образов, т.е. о сочинении новой поэзии. Продвигаясь по шкале вправо, мы последовательно встретимся с художественной прозой, научными и деловыми бумагами, личной и ведомственной перепиской. Наконец, на правом краю шкалы мы найдем некоторые типы текстов, однозначно передающихся из одного естественного. языка в другой. Это различного рода юридические формулы (включая патентные), номенклатурные перечни, транскрибируемые или транслитерируемые названия и имена. Очевидно, что возможность автоматизации перевода и вообще переработки текста будет возрастать по этой шкале слева направо.
Нас, в данном случае, интересуют те типы текстов, которые занимают довольно большое пространство в центре шкалы и которые по меткому выражению покойного академика А.П. Ершова называют «деловой прозой». Он считал, что деловая проза отражает производственные отношения людей и является таким фрагментом естественного языка, который может быть «воспринят» компьютером.
Это убеждение он основывал на том, что данные отношения людей более строго регламентированы, чем другие, что деловая проза используется в модельных ситуациях, которые ведут к ее формализации. «Стихийно реализуемая, — писал он, — но властно диктуемая сутью дела потребность обеспечить быстрое и точное взаимопонимание наградила деловую прозу жесткими средствами выражения, экономичностью и другими полезными для человека и машины свойствами». Ясно, что большая часть публицистики, научных и административных документов написана деловой прозой.
В последние десятилетия успехи лингвистики и. логики во многом продвинули наше понимание сложностей машинного перевода, а достижения электронной техники сделали возможными практические системы, которые работают в промышлен- ном режиме (обычно с предварительной подготовкой оригинального текста и последующим редактированием машинного перевода человеком).
Но все же камнем преткновения автоматизированной обработки текста, которая лежит в основе диалога человека с компьютером на естественном языке, является необходимость для понимания этого текста владеть определенными знаниями, экстралингвистической (т.е. не содержащейся в тексте) информацией и логическим мышлением (т.е. способностью к логическому выводу и правдоподобным рассуждениям).
Мы уже говорили, что пятое поколение вычислительных машин, с внедрением которых связывали новые революционные изменения в информационной технологии; авторы проекта представляли как компьютеры, ведущие диалог на естественном языке. Многие лингвисты сомневаются в правомерности такой формулировки. Не входя слишком глубоко в существо проблемы, попытаемся вникнуть в представления специалистов о тех видах лингвистического анализа, которые, собственно, и являются машинным «пониманием» естественного языка. Одна из первых трудностей заключается в неоднозначности многих его выражений, даже когда речь идет о языке деловой прозы.
Выделяют пять типов такой неоднозначности: лексическую, структурную, «глубинную», семантическую и прагматическую.
Лексическая неоднозначность возникает из-за полисемии большого числа слов, включая специальные термины. Нам удается устранять эту неоднозначность на уровне человеческого интеллекта, так как; зная контекст, всегда понимаешь, идет ли речь о ключе гаечном, от двери или том, который бьет из-под земли. При информационном поиске нам помогает в этом тезаурус, где слова с разными значениями маркируются. Однако для различения этих значений в машине часто приходится прибегать к трудоемким (и не всегда дающим правильный результат) статистическим процедурам.
Структурная неоднозначность — это, прежде всего, возможность разного синтаксического членения предложения. Например, фразу «Наблюдения над языком маленьких детей» можно понять двояко; кто-то наблюдает за языком детей или дети ведут наблюдения над языком, в зависимости от того, относится ли слово «детей» к слову «язык» или к слову «наблюдения».
Неоднозначность на уровне глубинной структуры содержится во фразе «Этот текст улучшить нельзя»: либо потому, что он совершенен, либо потому, что безнадежно плох (примеморфологическими характеристиками (число, падеж и т.п.). На четвертом этапе осуществляется синтаксический анализ фразы — грамматический разбор предложения. — который дает синтаксическую ее структуру (на рисунке она показана в виде дерева). Однако эта поверхностная структура не всегда однозначна,, как мы уже убедились на примерах. Поэтому требуется еще анализ глубинной структуры (на рисунке не показанный).
Дальнейшие этапы машинного понимания текста переводят его синтаксическую структуру в логическую, которая позволяет применить процедуры логического вывода и рассуждений. Существуют различные формы семантических анализаторов для кодирования смысла языковых выражений. В данной модели используется исчисление предикатов.
После семантического анализа логическая структура предложения записывается цепочкой логических символов, которые могут быть прочитаны следующим образом:
Существуют такие х. у, z, t0, t1, t2,
что х есть технология,
у есть закон,
z есть произносящий фразу, который понял у в момент t2
t0 есть момент произнесения,
t1 наступит после момента произнесения
x развивается по у в момент t1
t был задолго до t0
В ходе прагматического анализа определяется, в частности, что именно известно о переменных, Например, х — связанная квантором переменная. Она утверждает существование чего-то, но не. указывает на определенный объект. Другими словами, технологии в данном случае это технологии вообще, а не какие- либо конкретные технологии. Целью машинного понимания языка является возможность диалога с машиной, в ходе которого компьютер мог бы давать логически осмысленные ответы на вопросы пользователя или же преобразовывать команды в определенные действия, учитывающие реальность. Эту задачу решает последний этап анализа, обозначенный на рис. 14 как «Рассуждения». Каким образом, например, машина, воспринявшая нашу фразу, будет отвечать на вопрос: «Понимаем ли мы законы, по которым будет развиваться реферирование?» Для того, чтобы ответить на этот вопрос, компьютер должен знать, что реферирование есть процесс, относящийся к информационной технологии. Такое знание можно изобразить формулой исчисления предикатов: «Все, что есть реферирование, есть технология». Точно так же переменная у есть неопределенный объект, задаваемый контекстом. Переменная тоже остается не полностью определенной, поскольку местоимение мы может означать авторов высказывания, авторов и читателей, профессионалов данной области, вообще людей данного поколения.
Есть и другие достаточно эффективные способы введения знаний в машину, такие как семантические сети, фреймы. Можно, например, ввести в машину семантическую сеть, в которой все виды технологий, включая и информационную, и все их разновидности будут связаны определенными отношениями (род- вид, часть — целое и т.п.). По такой сети можно автоматически определить, что реферирование есть часть, или вернее, один из процессов. информационной технологии. Таким образом, в данной ситуации компьютер сможет дать правильный ответ на заданный ему вопрос.
Однако трудность реального представления знаний в машине заключается в многообразии конкретных ситуаций, от которых зависит понимание человеком текстов на естественном языке. В нашем примере из контекста нельзя понять, что означает выражение «очень давно», хотя информационные работники знают, что понимание некоторых законов информационной технологии пришло благодаря интенсивным исследованиям научных коммуникаций в середине 60-х гг. ХХ в.
Подобным же образом и выражение «будут развиваться» означает не столько будущее время, сколько продолженное действие. Можно привести много других примеров, когда фраза на естественном языке, вполне понятная человеку в конкретной ситуации, требует специальных приемов интерпретации для ее машинного понимания.
Во многих научных коллективах разрабатываются методы перевода с естественного языка на язык математической логики. Они необходимы для глубокого семантического анализа во многих автоматизированных информационных системах В проведении исследований важное место занимает анализатор, осуществляющий перевод синтаксического «дерева» в формулы информационно-логического языка. На каждом шаге его работы исходная синтаксическая структура приближается к логической формуле при помощи трансформаций-разверток до тех пор, пока формула не будет выражать смысл фразы, При этом, если исходная фраза неоднозначна, система в режиме диалога предлагает пользователю уточнить, какой из найденных машиной вариантов понимания он имел в виду.
Если подытожить сказанное, то суть проблемы заключается в том, что никакая, даже самая совершенная машина не может до понимать» текст на естественном языке так, как его понимает человек. Но она может однозначно воспринимать формулы математической логики. Поэтому задача формализации текста состоит в том, чтобы научиться устранять неопределенность и многозначность текстов на естественном языке при их переводе на формальный язык логики.
Разумеется, это один из многих путей, которым исследователи пытаются обучить компьютер пониманию естественного языка.
Новые, условия для одного из основных явлений человеческой культуры — книги — заключаются в появлении ее необычной физической формы — электронной. Во многих научных дисциплинах, связанных с созданием, распространением и использованием книги, разработаны собственные концепции книги. Это книга библиотеко, библиографо-, архиво-, документоведение, журналистика, полиграфия, информатика и другие. Концепция электронной книги в каждой из этих дисциплин пока еще разрабатывается. Не исключено, что она будет более или менее общей для них.
В самом широком (общем) смысле книгой часто называется физическая форма законченного и единого произведения печати или письменности. Под произведением при этом понимают результат целенаправленной познавательной деятельности, имеющий определенную логическую взаимосвязь частей, завершенность в целом, и изложенный в письменном виде. Самая узкая концепция книги бытует в статистике печати, где книгой считается непериодическое многостраничное произведение печати объемом не менее 49 страниц, не считая обложки и титульного листа. Понятно, что при разработке концепции электронной книги руководствуются самым широким и общим ее пониманием.
С точки зрения физической формы любой компьютерный файл является программой, записанной в определенном формате. В двоичных кодах в памяти компьютера записаны команды управления самой машиной, обработкой данных, а так- же монографии, статьи, изображения, звуки, видео и кинофильмы. Они могут быть записаны на магнитном диске, без затруднений переписываться с одного носителя на другой.
Их передают по различного рода сетям и каналам связи, в том числе и телефонным. Любой пользователь может создать любой файл и поместить его на свою страницу в Интернете для всеобщего обозрения.
Важное для книги понятие тиража в данном случае теряет смысл. По всей вероятности, искать опору в выявлении этого производного для книги понятия следует в наличии регистрации данной программы, пакета программ, баз данных или, другими словами, произведений в электронной форме. Помимо этого, во всех странах издающие и предоставляющие услуги по копированию учреждения лицензируются, и указание на лицензию также может служить признаком издания, отличающим его от произведения, выпущенного частным образом и прежде считавшегося рукописью.
Другой не праздный вопрос заключается в том, целесообразно ли называть электронной книгой некоторые виды изданий или произведений в электронной форме. На самом деле они давно уже так называются (ведь почти вся терминология метафорична), но многие книговеды возражают против этого. По их мнению, книга должна быть портативной и не требовать специальных устройств для использования, а эти условия в электронной книге не выполняются. Однако вся история книги свидетельствует о том, что ее развитие сопровождалась сменой носителей информации и способов производства книги. Клинописные глиняные таблетки (плитки) сменялись папирусными свитками, за ними последовали пергаментные и бумажные кодексы.
Последняя смена происходила в связи с изобретением и распространением книгопечатания. Промежутки времени между этими сменами сокращались от тысячелетий до столетий. Ускорение темпов развития информационной технологии привело к тому, что уже на памяти одного поколения мы обсуждали вопрос о том, являются ли книгой или вернее микрокнигой микрофильмы и микрокарты (микрофиши). Теперь настала очередь электронной книги, Смены материальных форм книги вызывались общественной потребностью в упрощении доступа к информации, появлением новых технологий ее производства и всегда приводили к ее удешевлению, новым возможностям ее использования и выполнению ею новых функций. Все это происходит и при внедрении электронной книги. Достаточно упомянуть среди обстоятельств ее появления экологическую опасность дальней- шего увеличения числа бумажных книг — вырубку лесов и изменение состава атмосферы.
По нашему мнению, электронную книгу целесообразно рассматривать именно в книговедческом аспекте, поскольку книгоиздание во всех развитых странах уже перешло на электронный набор. При этом, к сожалению, многовековой опыт книжной культуры, сложившийся под влиянием психофизиологических особенностей восприятия текста человеком, далеко не всегда используется. Чтобы не потерять эту культуру, нужно внедрять лучшее из накопленного опыта в новую информационную технологию. А кто же сделает это лучше, чем редакторы и издатели? С другой стороны, возможности компьютера видоизменяют методы общения человека с книгой„ведут к созданию нового типа книги, которая, по-видимому, станет кумулятивной с функциональной точки зрения и заменит некоторые виды печатной книги, например, словари, справочники, учебники, библиографические указатели, реферативные журналы и т.п. Очевидно, что электронное издание позволяет обновлять и дополнять их данные без повторного набора всего текста.
Сущность, особенности и разновидности электронной книги
Электронная книга определяется как совокупность данных (текст, звук, статичное и движущееся изображение) в памяти компьютера, предназначенная для восприятия человеком с по- мощью соответствующих программных и аппаратных средств. В широком смысле эта разновидность книги обладает многими возможностями мультимедиа сочетать текст с аудио- и видеоматериалами, обладающими стереозвуковыми и стереоскопическими эффектами, что придает ей черты динамичной интерактивное книги.
Некоторые ее виды можно не только читать, но и изменять, добавляя собственные наблюдения, размышления и результаты экспериментов (если все файлы предварительно не скомпилированы в один ехе файл). Электронная книга получила широкое распространение после внедрения в быт в качестве внешней памяти компьютера компактных оптических дисков, на которых вначале умещалось до 150 тыс. страниц печатного текста, а теперь (по технологии DVD) — в 7 раз больше, т.е. около 1 млн.
В настоящее время сотни журналов и тысячи книг ежегодно выпускаются в электронной форме. Возможность манипулировать текстами этих изданий вызвала к жизни гипертекст, т е. такую форму их организации, при которой смысловые единицы (фразы, абзацы, разделы) представлены не в линейной последовательности, а как система явно указанных возможных переходов или связей между ними. Это создает возможности поиска и объединения по смыслу фрагментов текстов из многих источников (т.е. навигации по гипертексту), что предполагает новый тип восприятия документов (в первую очередь, специальной литературы). При этом типе восприятия чтение перестает быть линейным (от первой до последней страницы), становится выборочным, «поисковым» и может осуществляться одновременно во многих направлениях и произведениях.
Такая модель иногда называется «гиперкнигой». Сохраняя многие черты печатных книг с учетом функций интерфейса и других имеющихся средств (ориентация, навигация, персонализация), гиперкнига обеспечивает дополнительные преимущества в отношении поиска по логическим связям. Это динамическая система, включающая структурные и функциональные компоненты:
Структурные, которые отражают деление книги на страницы, страниц — на текст. иллюстрации и т.п. элементы;
функциональные — динамический и интерактивный аспекты системы. В частности, некоторые программы позволяют читателю менять «состояние системы», т.е. из многих текстов компоновать новый текст, изменять положение текста и ил- люстраций на странице, менять шрифты. При этом в некоторых случаях существует (хотя официально и не признана) техническая возможность сохранять содержание библиотечной книги в собственном компьютере.
Электронный журнал: проблемы распространения и хранения
Самым распространенным видом электронных изданий является электронный журнал, который набирает силу в результате необычайно быстрого роста числа пользователей сети .Интернет. и особенно WWW. Теперь и крупные издательства, которые долгое время использовали Интернет для распространения экспериментальных электронных изданий, в полной мере осознали. что эта сеть стала важным средством распространения их публикаций. И хотя технология доступа к электронным сериальным изданиям используется широко; осталось много нерешенных проблем. В числе таких проблем следует назвать разработку ясных и понятных механизмов установления платы за использование электронных журналов. Не решены также вопросы авторского права, до. ступа к материалам за предшествующие годы, гарантированной доступности журналов. А без этого невозможно определить многие положения библиотечной стратегии и тактики.
Наиболее интересными проектами подготовки электроны журналов являются проект Muse Издательства Университет. Джонса Хопкинса (Балтимор, шт. Мэриленд, США), проект JST0R (Journal Storage Project = Проект хранения журналов) Рада крупных издательств Великобритании, проект интерактивно ro доступа к электронным журналам Компьютерного библиотечного центра с интерактивным доступом (OCLC = Online Computer Library Center), программы издательств Academic Press и Elsevier Science Publishing.
Интернет революционным образом изменил возможности неформальной научной коммуникации. Электронная почта, доски объявлений, интернетовские «конференции» — все это действительно уничтожает расстояния и делает «невидимые коллегии» интенсивно взаимодействующими коллективами.
В связи с электронными книгой и журналом возникают и новые «жанры» научной коммуникации, пока еще не очень хорошо осознанные и освоенные. Примером может служить жанр откликов на статью. Во многих электронных версиях журналов, доступных через Интернет, .каждый пользователь может составить свой комментарий к любой статье и познакомиться с комментариями других читателей. В традиционной системе научной коммуникации институт опубликованных рецензий распространялся только на книги, чаще всего организовывался редакциями журналов, имел большой временной лаг и был крайне ограничен по охвату рецензируемых книг. Что касается статей, то лишь считанные их единицы могли получить отклик в «Письмах в редакцию», да и то чаще всего по принципиальному несогласию с автором опубликованной статьи. Новая демократическая возможность в Интернете позволяет каждому выразить свое отношение к любой статье и в любой момент выяснить степень интереса к ней.
Другой пример — возможность по ссылкам на статьи (включая и гипертекстовые) сразу обращаться к полным их текстам, если они доступны через Интернет. Это создает совершенно новое пространство как бы единой научной книги или журнала, служит воплощением дерзких идей Поля Отле о все мирной энциклопедии и Герберта Уэлса о мировом мозге.
Электронный журнал вышел из пеленок и начал взрослую жизнь в результате необычайно быстрого роста числа пользователей сети Интернет и особенно WWW-технологии, как это выше уже было отмечено.И хотя почти стандартной технологией до
ступа к электронным сериальным изданиям стала Web-технология, в младенческом состоянии осталось много важных проблем, связанных с такими изданиями. В числе таких проблем следует назвать разработку ясных и понятных механизмов установления платы за использование электронных журналов, электронного макетирования страниц. Не решены также вопросы авторского права, доступа к материалам за предшествующие годы, гарантированной доступности журналов, отражения данных и другие енооб азование. Установление обоснованных и приемлемых для потребителя цен на электронные журналы является трудной проблемой. Издатели ищут пути, как защитить свои доходы от сокращения подписки на печатные журналы и потому придумывают хитроумные схемы оплаты. Для библиотек и других потребителей оказывается неприемлемым то, что цены на электронные журналы представляются неоправданно завышенными, или то, что они неразрывно связываются с печатными версиями, которые потребитель не всегда желает получать.
Безопасность. Одна из ключевых проблем, с которой столкнулись издатели электронных журналов,, заключается в следующем. Как организовать полный доступ к издаваемым ими электронным журналам и сохранить надлежащую правовую защиту для подписчиков и заблокировать доступ к ним для всех остальных. Многие издатели разрешают любому пользователю просматривать определенные фрагменты издаваемых ими электронных журналов (например, их образцы, некоторые статьи или оглавления журналов). Однако для доступа к полной публикации обычно требуется подтверждение права на него.
Наиболее часто используются следующие методы:
а) предоставление подписчику пароля;
б) использование специальной зоны доступа, только из которой пользователь данной организации может просматривать материалы электронного журнала по сети Интернет. Недостатком первого метода является то, что возникают затруднения, когда подписчиком является не индивидуальный пользователь, а организация. А недостатком второго метода является ограничение места доступа к ресурсам сети Интернет. Это означает, что издателям еще предстоит разработать методы обеспечения безопасности, не имеющие указанных недостатков.
Электронное представление страниц. Главная трудность»е- которой в настоящее время сталкиваются издатели при использовании сканированных изображений журнальных страниц, заключается в том, что такие изображения не могут использоваться как символьное представление текста. В них нельзя включить гиперссылки и использовать средства поиска и обработки текстов. Многие электронные журналы представлены непосредственно в формате Hyper Text Marked Language (HTML), который позволяет передавать символьный текст, гиперссылки, мультимедиа и другие современные формы представления информации, используемые в Интернете. В некоторых проектах последовательно используются оба метода, чтобы обеспечить поиск в HTML-тексте и представлять изображение в его исходной форме.
Однако ни одно из возможных решений не подходит для любого журнала. Если в журнале приводятся сложные математические уравнения и используются специальные символы и изображения, то такие журналы иногда сканируются. При этом используются такие форматы, как Portable Часа Format (PDF) фирмы Adobe Acrobat, *.gif, *.jpg, и результаты сканирования выдаются на экране в таком же виде, какой имеют печеные страницы. В отличие от издательств, которые производят электронные журналы путем сканирования их печатных версий, не которые издательства (например', Elsevier и Springer-Verlagl) используют дня Подготовки электронных и- печатных журналов интегрированную технологию. Такие издательства применяют формат SGML (Standait Generalized Markup Language)
Авторское право. Особенно большие затруднения возникают при распространении на электронные издания старых законов об авторском праве. Из-за того, что электронные изображения страниц журналов распространяются по сети Интернет, становится очень трудно контролировать их не пользования Пока в этой области нет ясного представления о необходимых законах, и издателям, приходится самим как-то защищать свои интересы. Доступность материалов за предшествующие годы. Библиотеки традиционно играли роль архивов, приобретая и сохраняя журналы для их вероятного использования читателями в течение длительного времени. А кто будет выполнять эту функцию в отношении журналов в электронной форме? Разумеется, издатели могли бы выполнять эту функцию в отношении издаваемых ими журналов. Однако это потребовало бы от них затраты значительных средств, объем которых со временем мог бы превысить стоимость самих издательских процессов. Если же издательство прекратит свое существование или сольется с другими издательствами, что станет с выпускавшимися им электронными изданиями и останутся ли они доступными для использования? Большинство издательств стремится лишь распространять пользующиеся спросом материалы. Едва ли они будут склонны тратить немалые деньги на то, чтобы поддерживать большие, но редко используемые массивы данных за прошлые годы в форме, допускающей интерактивный доступ к ним. Возможны разные решения этой проблемы, но среди них не просматриваются достаточно эффективные модели. Например, издательства могли бы размещать копии своих электронных изданий по договорам в нескольких местах, чтобы обеспечить их постоянную доступность при возникновении необходимости. Центр ОС1 С Electronic Collections Online (США) взял на себя обязательство постоянно архивировать получаемые им электронные журналы. И если в будущем по каким-либо причинам он не сможет выполнить эти обязательства„то по согласованию с сотрудничающими издательствами и по соглашениям с библиотеками будет обеспечена возможность доступа к архивным копиям соответствующих электронных журналов, хранящихся в этих библиотеках. Библиотеки и их объединения также могли бы начать согласованное избирательное архивирование электронных журналов — с согласия издательств. Роль архивов могли бы взять на себя агентства по подписке на журналы, такие как EBSCO и Swets. Такую же роль могли бы выполнять и национальные библиотеки. Воз- можно также, что электронным архивированием журналов займутся коммерческие фирмы, которые традиционно занимаются микрофильмированием материалов и их записью на компакт-диски, например University Microfilms International (UMI).
Надежность и доступность данных. Из-за недостаточной пропускной способности каналов связи и большого объема трафика в сети Интернет нередко возникают перебои в доступе к различным входящим в нее сетям и серверам. Поэтому для часто используемых электронных журналов может оказаться рациональным размещение их копий в различных серверах, находящихся в разных точках мира. Благодаря этому мог бы быть обеспечен повсеместный и легкий доступ к ним. Например, система KRII Dialog фирмы Knight Reader Information Inc. имеет архивное хранилище емкостью более 8 терабайт в своем центре, находящемся в г. Маунтин Вью (шт. Калифорния, США), которое может быть связано арендованными линиями с ключевыми точка- ми мира, в которых происходят перегрузки в трафике Интернет. Это должно существенно облегчить доступ к архивным фондам электронных журналов.
Организационные и юридические проблемы
Производство книги. Как уже было сказано, оригинал-макет, да и печатная форма большинства традиционно издаваемых книг готовятся к печати электронным способом, т.е. на компьютере. После печати тиража остается издательский файл оригинал макета, который пока что не используется как электронная книга, но может считаться таковой. Однако подлинная электронная книга не может быть воспроизведена полиграфически, потому что, имея линейный текст, она не имеет линейной организации. Она с самого начала создается как гипертекстовая (по идеологии гипертекста) и с использованием языковых средств гипертекста. Хорошо форматированная печатная публикация не всегда выглядит привлекательно при ее электронном представлении. Кроме того, интерактивная технология позволяет издателям производить такие операции, которые были невозможны в печатных изданиях. Например, эта технология допускает установление интерактивных гиперсвязей между взаимосвязанными ресурсами, установление связей со всеми видами мультимедиа, т.е. звуком, видео, графикой в двух и трехмерном представлении. Возможна связь первичных публикаций с традиционными службами реферирования и индексирования, постраничных ссылок — с соответствующими публикациями,
Если говорить о распространении электронных изданий, то здесь возникает много проблем, которые также нельзя решить на основе традиционного опыта.
Авторское право. Впервые создатели и читатели электронных книг и журналов столкнулись с проблемами авторского права совсем недавно, с возникновением World Wide Web— всемирной паутины, позволяющей блуждать по сети людям, не имеющим специальных знаний и определенных навыков, которые требовались для работы в Интернете с момента возникновения сети в 1969 г. Разобраться с документами, представленными в «овеществленной» электронной форме на дискетах и компакт-дисках, гораздо проще, так как их приобретают традиционными, аналогичными покупке печатной продукции способами.
Электронные документы в библиотеках в подавляющем большинстве своем появляются в результате их воспроизведения, т.е. записи в память ЭВМ путем сканирования, оцифровки имеющихся документов, а также получения по высокоскоростным каналам связи через сеть, как с отечественных, так и с иностранных сайтов.
В России функционирование документов, в том числе и электронных, регулируется следующими нормативными актами в области авторского права:
Закон РФ об авторском праве и смежных правах от 9 июля 1993 г., № 5351-1;
О государственной политике в области охраны авторского: права и смежных прав (Указ. Президента РФ от 07,10.%t,,- № 1607);
Вопросы присоединения РФ к ряду международных конвенций в области охраны авторских прав (Распоряжение Президента РФ от 25.03.94,№ 152-рп);
О присоединении Российской Федерации к Бернской конвенции об охране литературных и художественных произведений от 9 сентября 1886 г., пересмотренной в Париже
24 июля 1971 r. и измененной 2 октября 1979 г., Всемирной конвенции об авторском праве, пересмотренной в Париже 24 июля 1971 г. (Постановление правительства РФ от 3 ноября 1994 г., № 1224);
Об информации, информатизации и защите информации (№ 24-ФЗ, 20.02.95, Федеральный закон принят Государственной Думой 25 января 1995 r.);
Об участии в международном информационном обмене (№ 85-ФЗ, 04;07.96, Федеральный закон, принятый Государственной Думой 5 июня 1996 г.).
Кроме национального законодательства, на территории Российской Федерации введен в действие ряд международных соглашений. К международным актам, участником которых является Россия и действие которых распространяется на защиту
прав авторов, относятся:
Бернская конвенция об охране литературных и художественных произведений в редакции 1971 г. (Бернский Союз), к которой Россия присоединилась с 1994 г.;
Всемирная конвенция по, охране авторского права, разработанная по инициативе ЮНЕСКО, подписанная в Женеве 6 сентября 1952 г. (СССР с 1971 г.) и пересмотренная в Париже 24 июля 1971 г. которая начала действовать в России с. 1995 г. Стокгольмская конвенция от 14 июля 1967 г. об учреждении.
Всемирной организации интеллектуальной собственности.
Общий принцип Женевской и Бернской конвенций состоит в том, что произведения созданные в странах-участницах конвенции, в каждой из стран пользовались бы той же охраной, что и национальные произведения.