Если внимательно присмотреться к преобразованиям, можно заметить, что, как правило, в них участвуют минимум три документа — входящий (преобразовываемый) документ, документ преобразования (преобразующий) и выходящий (преобразованный документ). Соответственно, каждый из них может иметь собственную кодировку.
Кодировка входящего документа указывается в его xml-декларации. Например, документы в кодировке UTF-8 должны иметь xml-декларацию вида
Возможно, небольшим сюрпризом окажется то, что в соответствии со стандартом XML, имена тегов вовсе не обязаны состоять исключительно из латинских букв. В имени элемента можно использовать весь кириллический алфавит, а также множество других символов. Совершенно корректным будет документ
<���страница>
<���содержимое/>
</страница>
Аналогичным образом кириллицу, а также другие наборы символов и алфавиты можно использовать и в самих преобразованиях, поскольку те в свою очередь также являются XML-документами.
Пример
Листинг 8.57. Входящий документ
<���каждый>
<���охотник>
<���желает>
<���знать>
<���где>
<���сидит>
<���фазан/>
</сидит>
</где>
</знать>
</желает>
</охотник>
</каждый>
Листинг 8.58. Преобразование
version="1.0"
xmlns:xsl="http://www.w3.org/1999/XSL/Transform">
<���редкий>
</редкий>
<���рыболов>
</рыболов>
<���может>
<���забыть>
</забыть>
</может>
<���как>
</как>
<���плавает>
</плавает>
<���щука>
</щука>
Листинг 8.59. Выходящий документ
<���редкий>
<���рыболов>
<���может>
<���забыть>
<���как>
<���плавает>
<���щука/>
</плавает>
</как>
</забыть>
</может>
</рыболов>
</редкий>
Напомним, что кодировка выходящего документа определяется атрибутом encoding
элемента xsl:output
и не зависит от кодировок преобразования и обрабатываемых документов. Например, можно легко создать преобразование, которое будет изменять кодировку входящего документа. Это будет идентичное преобразование с элементом xsl:output
, определяющим целевой набор символов.
Листинг 8.60. Преобразование, изменяющее кодировку документа на KOI8-R
xmlns:xsl="http://www.w3.org/1999/XSL/Transform">
Как можно видеть, XSLT довольно гибко поддерживает кодировки — входящие и выходящие документы, а также сами преобразования могут иметь разные наборы символов. Единственным ограничением является множество кодировок, поддерживаемое самим процессором, вернее парсером, который он использует для разбора входящих документов, и сериализатором, который служит для создания физического экземпляра выходящего документа.
Практически во всех процессорах поддерживаются кодировки UTF-8, US- ASCII и ISO-8859-1, но далеко не все могут работать с UTF-8 или KOI8-R. Поэтому, создавая документы и преобразования в нестандартных кодировках, мы заведомо ограничиваем переносимость решений. В случаях, когда XML/XSLT приложения создаются под конкретный процессор с заведомо известными возможностями, это не является большой проблемой, однако в тех случаях, когда требуется универсальность или точно не известно, каким процессором будет производиться обработка, единственным выходом будет использовать UTF-8 — как во входящих документах, так и в самих преобразованиях.
Случай нескольких входящих документов
Базовая архитектура преобразования подразумевает один входящий документ. Несмотря на это, в преобразованиях можно использовать и обрабатывать информацию, хранящуюся в других, внешних документах. Доступ к этим документам можно получить при помощи функции document
.
Запись функции:
node-set document( object , node-set ?)
Функция document
позволяет обращаться к внешним документам по их URI, например
скопирует в выходящий документ содержимое главной страницы Консорциума W3.
Функция document
возвращает множество узлов. В простейшем случае это множество будет состоять из корневого узла внешнего документа. Функцию document
можно использовать в более сложных XPath-выражениях, например в выражениях фильтрации. Так функция
Читать дальше