Далее идут настройки, относящиеся непосредственно к преобразованию файлов. Сразу скажу, что «ишкуштвенный интилект» программы, весьма и весьма слаб, поэтому большинство настроек приходится отключать.
« Preserve ‹form›» – оставлять содержимое, обрамленное тэгом form. Меню, голосования и т.д. Включать не стоит.
« Do not convert charset» – не менять кодовую таблицу файла.
« No epigraphs» – не распознавать эпиграфы. Даже эту нехитрую операцию программа делает не всегда корректно, поэтому ставим галочку.
« No ‹/emptyline›» – не ставить пустых строк. Обычно эту опцию включать не требуется.
« No description» – под «description» здесь понимается аннотация. Не делать аннотацию. Однозначно ставим галочку.
« Allow 1000 error fixes» – разрешить программе попытаться восстановить битый документ. Пожалуй, галочку ставить не надо.
« Do not convert "quotes" to «quotes»» – не конвертировать компьютерные кавычки в типографские. Эта операция нужная, и обычно программа отрабатывает ее без нареканий. Не ставим галочку.
« Do not convert [text] and {text} into footnotes» – не конвертировать текст в квадратных и фигурных скобках в сноски. Ставить или не ставить галочку – дело вкуса. Я лично предпочитаю делать сноски вручную.
« Do not convert _italic_ текст» – не конвертировать текст, обрамленный знаками подчеркивания в курсив. Ставим галочку. Не стоит разрешать программе делать это самой. Очень часто получается так называемый «рваный» курсив (‹emphasis›С‹/emphasis› ‹emphasis›ло‹/emphasis› ‹emphasis›во‹/emphasis›) или, того хуже, курсивным становится только первое слово абзаца.
« Do not restore broken paragraphs» – не восстанавливат разорванные абзацы. Ставим галочку.
« Do not detect poems» – не выделять стихи. Ставим галочку однозначно. Программа определяет стихи исключитенльно по коротким строчкам и делает это крайне коряво.
« Only use marked with ‹h#›|^T^U headers» – выделять как заголовки исключительно абзацы выделенные тэгами ‹h1›…‹h6› и (или) esс-последовательностями ^T^U. Ставим галочку, если текст скачан из библиотеки Максима Мошкова (Lib.ru).
« Ignore line indent (spaces at the line start)» – не считать пробелы в начале сроки признаком абзаца.
« Convert leading '-' to long dash '-' (dialogs)» – конвертировать компьютерный «минус» в начале строки в длинное тире. Ставим галочку, особенно, если конвертируем DOS-текст.
Вторая закладка – « Links », предназначена для настройки обработки html-файлов.
Первый блок – « Images », относится к картинкам, если таковые во входном файле имеются.
Опция « Remove ALL images from the document» убирает вообще все картинки.
« Remove off-site images» – убирает только те картинки, которые располагаются не на сайте, с которого был загружен конкретный html.
« Preserve dynamic images» – не удалять картинки с URL динамического вида, например, счетчики.
Блок « Linked documents »
« Remove external links» – просто убирает линки, ведущие за пределы документа.
Включение опции « Follow links» делает активными все последующие опции.
Теоретически, если исходный текст представлен в виде пачки html-файлов и имеется некий файл-оглавление со ссылками, можно включить эту опцию, открыть файл-оглавление, а остальные программа подстыкует автоматически. На практике это зачастую получается довольно коряво.
« Follow off-site links» – следовать по линкам, ведущим за пределы сайта.
Рядом находится уровень следования (level deep).
« Only follow matching the expression» – следовать только линкам, совпадающим с нижеуказанным выражением.
« Never follow matching the expression» – НЕ следовать линкам, совпадающим с нижеуказанным выражением.
Третья закладка – « RegEXP » – обработка текста с помощью регулярных выражений.
Подробнее о том, что такое регулярные выражения и как ими пользоваться, можно прочесть в приложении Д в конце книги.
« Header detection regular expression» – регулярные выражения, с помощью которых программа может распознавать заголовки.
« Regular expression to run on-load» – регулярные выражения, предназначенные для обработки исходного текста.
Окошко разделено на два столбца. Первый (+new search pattern) предназначен для выражения поиска. Второй (+new replace pattern) – для выражений замены.
Регулярных выражений может быть несколько.
Вот как можно обойти вышеописанный баг с неправильным распознаванием новых абзацев.
в графе « +new search pattern » вводим:
\r\n(\S)
(перевод строки, новая строка, не-пробел).
Читать дальше