Составные документы на основе XML

В вычислительной технике составной документ — тип документов, обычно создаваемых с использованием текстовых процессоров, это обычный текстовый документ смешанный с, например, таблицами, рисунками, видео, аудио, и другими мультимедийными объектами. Составной документ также может быть использован для собирания нескольких документов в один.

Технология составных документов обычно применяется на верхнем уровне каркасов компонентного ПО, но идея компонентного ПО включает некоторые другие концепции, обособленные от составных документов, и компоненты ПО в одиночку только допускают составные документы.

Хорошо известные технологии составных документов:

§ Object Linking and Embedding (OLE) от Microsoft

§Bonobo от Ximian (впервые использовано в GNOME)

§KParts в KDE

§Open Document Architecture от ITU-T (не используется)

§OpenDoc от Apple Computer (сейчас не используется)

§Verdantium

§XML и XSL — инкапсулирующие форматы, использующиеся для составных документов любых видов

Происхождение идеи составных документов не ясно, но первая публичная реализация была на рабочих станциях Xerox Star, выпущенных в 1981.

Составные документы обычно используются для создания больших документов, таких как книга, диссертация или длинный отчет.

Составной документ особенно полезен в том случае, когда используется большое количество графики, крупноформатные таблицы или другой материал, которые занимают много места и делают размер файла документа очень большим.

В данной работе будет рассматриваться одна из технологий составных документов, а именно XML.

За недолгое время своего официального существования язык XML привлек к себе уже достаточно много внимания со стороны разработчиков и пользователей Интернет. Сегодня количество приверженцев этой новой технологии возрастает очень стремительно. Несмотря на то, что XML очень молод (международная организация W3C утвердила спецификацию «Extensible Markup Language(XML) 1.0» в начале февраля 1998 г) и отдельные компоненты этого языка находятся еще в стадии доработки, уже сегодня появляются новые языки, созданные на основе XML, возникают многочисленные Web-сервера, использующие эту технологию для организации хранящейся на них информации.

20 стр., 9547 слов

Производные и составные произведения

... собой комплекс правовых средств и способов воздействия соответствующей отрасли права на общественные отношения, составляющие ее предмет. Д Гражданское право как составная часть (элемент) единой правовой ... Всякое научное исследование предполагает точное определение не только цели и предмета исследования, но и приемов, способов и средств решения соответствующей научной задачи. Методы н Гражданско- ...

Цель данной работы изучить и предоставить визуализированный XML-документ. В этом нам поможет редактор XML-документов.

Редактор XML — это редактор для языка разметки, функциональность которого позволяет упростить работу с документами в формате XML. Редактировать XML можно и с помощью текстовых редакторов, в которых видно код, однако редакторы XML предлагают дополнительные возможности, такие как автоматическое завершение тегов, а также меню и кнопки для выполнения типичных задач при работе с XML.

Существуют графические редакторы XML, которые скрывают код и представляют контент в более удобном виде. Это позволяет людям, не разбирающимся в коде XML, вводить информацию в документы, основанные на XML, например, в ведомости отработанного времени и отчеты о расходах. Редакторы XML полезны и пользователям, хорошо знакомым с XML, так как применение таких редакторов в любом случае ускоряет разработку XML документов.

1 Язык разметки

Язык разметки документов — это набор специальных инструкций, называемых тэгами, предназначенных для формирования в документах какой-либо структуры и определения отношений между различными элементами этой структуры. Тэги языка, или, как их иногда называют, управляющие дескрипторы, в таких документах выделяются относительно основного содержимого документа и служат в качестве инструкций для программы, производящей показ содержимого документа на стороне клиента. В самых первых системах для обозначения этих команд использовались символы < и >, внутри которых помещались названия инструкций и их параметры. Сейчас такой способ обозначения тэгов является стандартным.

Использование гипертекстовой разбивки текстового документа в современных информационных системах во многом связано с тем, что гипертекст позволяет создавать механизм нелинейного просмотра информации. В таких системах данные представляются не в виде непрерывного потока текстовой информации, а набором взаимосвязанных компонентов, переход по которым осуществляется при помощи гиперссылок.

Самый популярный на сегодняшний день язык гипертекстовой разметки — HTML, был создан специально для организации информации, распределенной в сети Интернет, и является одной из ключевых составляющих технологии WWW. С использованием гипертекстовой модели документа способ представления разнообразных информационных ресурсов в сети стал более упорядочен, а пользователи получили удобный механизм поиска и просмотра нужной информации. является упрощенной версией стандартного общего языка разметки — SGML (Standart Generalised Markup Language), который был утвержден ISO в качестве стандарта еще в 80-х годах. Этот язык предназначен для создания других языков разметки, он определяет допустимый набор тэгов, их атрибуты и внутреннюю структуру документа. Контроль над правильностью использования дескрипторов осуществляется при помощи специального набора правил, называемых DTD-описаниями, которые используются программой клиента при разборе документа. Для каждого класса документов определяется свой набор правил, описывающих грамматику соответствующего языка разметки. С помощью SGML можно описывать структурированные данные, организовывать информацию, содержащуюся в документах, представлять эту информацию в некотором стандартизованном формате. Но в виду некоторой своей сложности, SGML использовался, в основном, для описания синтаксиса других языков (наиболее известным из которых является HTML), и немногие приложения работали с SGML- документами напрямую.

4 стр., 1658 слов

Роль документа в современном обществе

... способы создания документов. Роль документа тесным образом связана с функциями документа. Таким образом возникновение документа было обусловлено вполне конкретными общественными потребностями, а именно – необходимостью закрепления, сохранения и передачи информации. В процессе ...

Гораздо более простой и удобный, чем SGML, язык HTML позволяет определять оформление элементов документа и имеет некий ограниченный набор инструкций — тэгов, при помощи которых осуществляется процесс разметки. Инструкции HTML, в первую очередь, предназначены для управления процессом вывода содержимого документа на экране программы-клиента и определяют этим самым способ представления документа, но не его структуру. В качестве элемента гипертекстовой базы данных, описываемой HTML, используется текстовый файл, который может легко передаваться по сети с использованием протокола HTTP. Эта особенность, а также то, что HTML является открытым стандартом и огромное количество пользователей имеет возможность применять возможности этого языка для оформления своих документов, безусловно, повлияли на рост популярности HTML и сделали его сегодня главным механизмом представления информации в Web.

Однако современные приложения нуждаются не только в языке представления данных на экране клиента, но и в механизме, позволяющем определять структуру документа, описывать содержащиеся в нем элементы. HTML обладает несложным набором команд и вполне успешно справляется с задачей описания текстовой информации и отображением ее на экране программы просмотра — браузера. Однако сами отображаемые данные никак не связаны с теми тэгами, которые используются для форматирования, поэтому у программ-анализаторов нет возможности использовать тэги HTML для поиска нужных нам фрагментов документа. Т.е. встретив, например, такое описание

<font color=»red»>rose</font>

программа просмотра будет знать, каким цветом отобразить текст, содержащийся внутри тэгов <font></font> и, вероятно, отобразит его правильно, но ей абсолютно безразлично, в каком месте документа встретился этот тэг, в какие другие тэги заключен текущий фрагмент, существуют ли вложенные в него фрагменты, правильно ли построены отношения между объектами. Такое «безразличие» к структуре документа приводит к тому, что поиск или анализ информации внутри него ничем не будет отличаться от работы со сплошным, не разбитым на элементы текстовым файлом. А это, как известно, не самый эффективный способ работы с информацией.

Другим существенным недостатком HTML можно назвать ограниченность набора его тэгов. DTD-правила для HTML определяют фиксированный набор дескрипторов и поэтому у разработчика нет возможности вводить собственные, специальные тэги. Хотя время от времени появляются новые расширения языка, но долгий путь их стандартизации, сопровождаемый постоянными разногласиями между основными производителями браузеров делают практически невозможной быструю адаптацию языка, его использование для отображения специализированной информации (например, мультимедийной, математических, химических формул и т.д.).

12 стр., 5869 слов

Виды официальных документов

... документов. Официальные документы -- это документы, созданные юридическими или физическими лицами, оформленные и удостоверенные в установленном порядке. Как носители информации, документы ... формы управленческой деятельности выражаются посредством соответствующих документов: распорядительная деятельность - изданием различных распорядительных документов; планирование - посредством подготовки различных ...

Подводя итог всему сказанному, можно утверждать, что HTML уже сегодня не удовлетворяет в полной мере требованиям, предъявляемым современными разработчиками к языкам подобного рода. И ему на смену был предложен новый язык гипертекстовой разметки, мощный, гибкий, и, одновременно с этим, удобный язык XML. (Extensible Markup Language) — это язык разметки, описывающий целый класс объектов данных, называемых XML-документами. Этот язык используется в качестве средства для описания грамматики других языков и контроля над правильностью составления документов. Т.е. сам по себе XML не содержит никаких тэгов, предназначенных для разметки, он просто определяет порядок их создания. Таким образом, если, например, мы считаем, что для обозначения элемента rose в документе необходимо использовать тэг <flower>; то XML позволяет свободно использовать определяемый нами тэг и мы можем включать в документ фрагменты, подобные следующему:

<flower>rose</flower>

Набор тэгов может быть легко расширен. Если, предположим, мы хотим также указать, что описание цветка должно по смыслу идти внутри описания оранжереи, в которой он цветет, то просто задаем новые тэги и выбираем порядок их следования:

<conservatory>

<flower>rose</flower>

</conservatory>

Процесс создания XML документа очень прост и требует лишь базовых знаний HTML и понимания тех задач, которые необходимо выполнить, используя XML в качестве языка разметки. Таким образом, у разработчиков появляется уникальная возможность определять собственные команды, позволяющие им наиболее эффективно определять данные, содержащиеся в документе. Автор документа создает его структуру, строит необходимые связи между элементами, используя те команды, которые удовлетворяют его требованиям, и добивается такого типа разметки, которое необходимо ему для выполнения операций просмотра, поиска, анализа документа.

Еще одним из очевидных достоинств XML является возможность использования его в качестве универсального языка запросов к хранилищам информации. Сегодня в W3C находится на рассмотрении рабочий вариант стандарта XML-QL(или XQL), который, возможно, в будущем составит серьезную конкуренцию SQL. Кроме того, XML-документы могут выступать в качестве уникального способа хранения данных, который включает в себя одновременно средства для разбора информации и представления ее на стороне клиента. В этой области одним из перспективных направлений является интеграция Java и XML — технологий, позволяющая использовать мощь обеих технологий при построении машинно-независимых приложений, использующих, кроме того, универсальный формат данных при обмене информации. позволяет также осуществлять контроль над корректностью данных, хранящихся в документах, производить проверки иерархических соотношений внутри документа и устанавливать единый стандарт на структуру документов, содержимым которых могут быть самые различные данные. Это означает, что его можно использовать при построении сложных информационных систем, в которых очень важным является вопрос обмена информацией между различными приложениями, работающими в одной системе. Создавая структуру механизма обмена информации в самом начале работы над проектом, менеджер может избавить себя в будущем от многих проблем, связанных с несовместимостью используемых различными компонентами системы форматов данных.

10 стр., 4579 слов

База данных для библиотеки

... проприетарным, и у библиотеки нет возможности его приобретения. В связи с этим было принято решение создать новую базу данных, на основе существующей, и ... базе данных и процесса распознавания фрагмента изображения. В четвертой части демонстрируются пользовательский интерфейс и принципы работы с программой. 1. Анализ предметной области Предметная область представляет собой реальную библиотеку на ...

Также одним из достоинств XML является то, что программы-обработчики XML-документов не сложны и уже сегодня появились и свободно распространяются всевозможные программные продукты, предназначенные для работы с XML-документами. XML поддерживается в IE5. Было заявлено о его поддержке в последующих версиях Netscape Communicator, СУБД Oracle, DB-2, в приложениях MS-Office. Все это дает основания предполагать, что, скорее всего, в ближайшем будущем XML станет основным языком обмена информации для информационных систем, заменив собой, тем самым, HTML. На основе XML уже сегодня созданы такие известные специализированные языки разметки, как SMIL, CDF, MathML, XSL, и список рабочих проектов новых языков, находящихся на рассмотрении W3C, постоянно пополняется.

Язык XSLT применяется для обработки документов, внесения изменений и необходимых дополнений в разметку. Его можно применять для преобразования XML-кода в отформатированный HTML-код, легко воспринимаемый человеком. Можно также преобразовать XML-документ в простой текст или в иной XML-документ с измененной структурой либо даже в документ JavaScript. Язык XSLT обеспечивает доступ к содержимому XML-документов, а также применяется для создания новых документов на их основе. В силу изложенных причин стоит заняться изучением языка XSL.

Чаще выполняется преобразование XML-документов в HTML-документы, именно эта операция рассматривается в примерах данной главы.

2. Структура XML-документа

Хотя XML, сильно отличается по своим возможностям и предназначению от языка гипертекстовой разметки, оба эти языка являются подмножествами SGML, и, следовательно, наследуют его базовые принципы.

Простейший XML-документ может выглядеть так:

<?xml version=»1.0″?>

<list_of_items>

<item id=»1″>

<first/>Первый</item>

<item id=»2″>Второй <sub_item>подпункт 1</sub_item>

22 стр., 10637 слов

Алгоритмы поиска и сортировки данных

... type item = record key: integer; {описание прочих элементов} end; - Прочие элементы - совокупность всех существенных данных об элементе, поле key предназначено только для идентификации элементов. Тем не менее, рассматривая алгоритмы сортировки, имеем ...

</item><item id=»3″>Третий</item>

<item id=»4″><last/>Последний</item>

</list_of_items>

Этот документ очень похож на обычную HTML-страницу. Так же, как и в HTML, инструкции, заключенные в угловые скобки называются тэгами и служат для разметки основного текста документа. В XML существуют открывающие, закрывающие и пустые тэги (в HTML понятие пустого тэга тоже существует, но специального его обозначения не требуется).

Тело документа XML состоит из элементов разметки(markup) и непосредственно содержимого документа — данных(content).

XML — тэги предназначены для определения элементов документа, их атрибутов и других конструкций языка.

Любой XML-документ должен всегда начинаться с инструкции <?xml?>, внутри которой также можно задавать номер версии языка, номер кодовой страницы и другие параметры, необходимые программе-анализатору в процессе разбора документа.

В общем случае XML-документы должны удовлетворять следующим требованиям:

·В заголовке документа помещается объявление XML, в котором указывается язык разметки документа, номер его версии и дополнительная информация;

·Каждый открывающий тэг, определяющий некоторую область данных в документе обязательно должен иметь закрывающий тэг;

·В XML учитывается регистр символов;

·Все значения атрибутов, используемых в определении тэгов, должны быть заключены в кавычки;

·Вложенность тэгов в XML строго контролируется, поэтому необходимо следить за порядком следования открывающих и закрывающих тэгов;

·Вся информация, располагающаяся между начальным и конечными тэгами, рассматривается в XML как данные, и поэтому учитываются все символы форматирования (т.е. пробелы, переводы строк, табуляции не игнорируются, как в HTML).

Если XML-документ не нарушает приведенные правила, то он называется формально-правильным и все анализаторы, предназначенные для разбора XML- документов, смогут работать с ним корректно. Однако кроме проверки на формальное соответствие грамматике языка, в документе могут присутствовать средства контроля над содержанием документа, за соблюдением правил, определяющих необходимые соотношений между элементами и формирующих структуру документа. Для того, чтобы обеспечить проверку корректности XML- документов, необходимо использовать анализаторы, производящие такую проверку и называемые верифицирующими. На сегодняшний день существует два способа контроля правильности XML-документа: DTD — определения(Document Type Definition) и схемы данных(Semantic Schema).

В отличии от SGML, определение DTD-правил в XML не является необходимостью.

2.1 Конструкции языка

Содержимое XML-документа представляет собой набор элементов, секций CDATA, директив анализатора, комментариев, спецсимволов, текстовых данных.

3 стр., 1493 слов

Сетевые технологии обработки данных

... технологий, третье - на бизнесменов. 3.2 Технологии обработки данных ... данных, предусматривающую создание в документах ссылок на другие документы, в которых содержатся пояснения различных терминов, иллюстрации, аудиофайлы и видеоролики. Стандарт на построение таких документов определяется HTML. Разрабатывается программное обеспечение технологии ... Современные сетевые технологии ... активные элементы, как ...

.2 Элементы данных

Элемент — это структурная единица XML-документа. Заключая слово rose в в тэги <flower> </flower> , мы определяем непустой элемент, называемый <flower>, содержимым которого является rose. В общем случае в качестве содержимого элементов могут выступать как просто какой-то текст, так и другие, вложенные, элементы документа, секции CDATA, инструкции по обработке, комментарии, — т.е. практически любые части XML-документа. Любой непустой элемент должен состоять из начального, конечного тэгов и данных, между ними заключенных. Например, следующие фрагменты будут являться элементами:

<flower>rose</flower>

<city>Saratov</city>

Набором всех элементов, содержащихся в документе, задается его структура, и определяются все иерархическое соотношения. Плоская модель данных превращается с использованием элементов в сложную иерархическую систему с множеством возможных связей между элементами. Производя в последствии поиск в этом документе, программа клиента будет опираться на информацию, заложенную в его структуру — используя элементы документа. Поиск при этом, естественно, будет гораздо более эффективен, чем нахождение нужной последовательности по всему документу. В XML документе, как правило, определяется хотя бы один элемент, называемый корневым и с него программы-анализаторы начинают просмотр документа. В некоторых случаях тэги могут изменять и уточнять семантику тех или иных фрагментов документа, по разному определяя одну и ту же информацию и тем самым предоставляя приложению-анализатору этого документа сведения о контексте использования описываемых данных. Например, прочитав фрагмент <city>Holliwood</city> мы можем догадаться, что речь в этой части документа идет о городе, а вот во фрагменте <restaurant>Holliwood</restaurant>

  • о забегаловке. В случае, если элемент не имеет содержимого, т.е. нет данных, которые он должен определять, он называется пустым. Примером пустых элементов в HTML могут служить такие тэги HTML, как <br>, <hr>, <img>.