Кнопка «Обработать» позволяем удалить разрыв предложения и вставить пробел.
В этом варианте поиска активируется выпадающий список знака пунктуации, который можно выбрать, и при нажатии кнопки «Вставить» он будет вставлен «на свое место».
Кнопка «Склеить» позволяет просто удалить разрыв, не вставляя пробел. Это полезно, т. к. часто при OCR (особенно в FR10) слово оказывается разорванным не как, например «по-¶шел», а «по¶шел». Поэтому «Склейка» склеивает разорванное слово.
Поиск вероятного недостающего пробела между словами
Ищет слова с вероятным отсутствием пробела между ними по знакам препинания, закрывающим скобкам.
Опция « Искать между цифрами» нужна для возможности включить/отключить поиск недостающего пробела между цифрами. Очень часто в книгах встречаются такие конструкции: 12,34, 1972:2010 и т. д. (В христианской литературе – это ссылка на стихи Библии, например, Ин. 3:16. В математических книгах и книгах по программированию – это указание на числовые диапазоны, просто дробные числа. И т. д.). В таких книгах, как правило, отсутствие пробела между цифрами – это не ошибка OCR, а норма. При вычитке инструмент часто находит такие цифры "без пробела", что утомляет. Чтобы пропустить эти «правильные» цифры и не тратить на них время нужно отключить опцию « Искать между цифрами».
Для поиска используется шаблон регулярных выражений: При включенной опции « Искать между цифрами»:
\‹[: alnum: ]+[)}\]({\[,!?…»”\"":;«“][: alpha: ]+|\‹[: alpha: ]+[: digit: ]+|\‹[: digit: ]+[: alpha: ]+
При выключенной опции « Искать между цифрами»:
\‹[: alpha: ]+[)}\]({\[,!?…»”\"":;«“][: alpha: ]+|\‹[: alpha: ]+[: digit: ]+|\‹[: digit: ]+[: alpha: ]+
При корректировании в этом режиме поиска программа сама определяет, где поставить пробел – слева или справа от найденного знака препинания, скобки или кавычек.
III.2. Обработка выделенных абзацев (обрыв абзаца или строки)
Часто требуется не автоматическая обработка текста, а ручная некоторых фрагментов. Данный набор инструментов может работать как с одним выделенным фрагментом текста, так и с несколькими выделенными областями текста. Если нет ни одного выделенного фрагмента, то инструменты могут обработать весь документ (появляется соответствующее окно с вопросом).
Выделять можно только Текст. Инструменты не работают с Врезками и Таблицами. Например, есть текст с обрывом абзацев (показаны скрытые символы):
В этом тексте есть и обрыв абзаца, и обрыв строки (тэг ‹BR› в html-файлах).
Делаем следующее:
1. Выделяем те строки, где есть разрыв строки:
Запускаем инструменты Ручная обработка абзацев, выбираем Режим обработки: Разрыв строки (\n)и Тип обработки: Склейка в 1 абзац (Замена обрыва строки \n на 1 пробел). После нажатия Обработать, получили следующее:
Теперь выделяем все строки, разорванные абзацев, причем в каждое выделение должны попасть только те строки, которые должны составить один целый абзац:
Для инструмента Ручная обработка абзацев, выбираем Режим обработки: Обрыв абзаца (¶)и Тип обработки: Склейка в 1 абзац (Замена обрыва строки \n на 1 пробел). После нажатия Обработать, получили следующее:
Что и требовалось. Разорванные строки 2-х абзаце мы склеили, каждые в свой абзац. Разобраться с остальными Типами обработки этих инструментов не сложно.
III.3. Инструменты работы с примечаниями, сносками и гиперссылками
Пожалуй, самым нудным и утомительным в вычитке текста является обработка и создание сносок из примечаний. Это – постоянные «прыжки» по тексту – с места текста примечания, вырезая его текст в буфер – на «его» номер в главе, удаление этого номера, вставки сноски, потом вставка из буфера примечания… И так – «до умопомрачения».
Читать дальше