В более сложном случае придется использовать так называемые lookahead-условия или lookbehind-условия. Не путайте Positive lookahead с оптимистичным взглядом в будущее. Всего есть четыре типа таких условий:
• Положительное lookahead-условие '(?=re)'
Соответствует, только если за ним следует регулярное выражение re.
• Отрицательное lookahead-условие '(?!re)'
Соответствует, только если за ним не следует регулярное выражение re.
• Положительное lookbehind-условие '(?<=re)'
Соответствует, только если перед ним следует регулярное выражение re.
• Отрицательное lookbehind-условие '(?
Соответствует, только если перед ним не следует регулярное выражение re.
Примеры:
$test = "HTML is a document description-language and not a programming-language";
$test =~ m/(?<=description-)language/
Найдет первое "language" ("description-language"), как предваряемое "description-", а
$test = "HTML is a document description-language and not a programming-language";
$test =~ m/(?
Найдет второе "language" ("programming-language").
Следующие примеры выполнены в .Net. Поиск осуществляется в следующем тексте:
void aaa {
if (…) {
try {
…
} catch(Exception e1) {
MessageBox.Show(e1.ToString(), "Error");
} finally {
listBox1.EndUpdate();
}
}
}
Положительный Lookahead
Шаблон \{ (?=[^\{]*\}).*?\} находит самый глубоко вложенный блок, выделенный фигурными скобками. Результат выполнения:
1. { … }
2. { MessageBox.Show(e1.ToString(), "Error"); }
3. { listBox1.EndUpdate(); }
Положительный Lookbehind
Шаблон (?<=try\s*)\{(?=[^\{]*\}).*?\} находит самый глубоко вложенный блок выделенный фигурными скобками, перед которым есть try. Результат выполнения: { … }.
Отрицательный Lookbehind
Шаблон (?\{(?=[^\{]*\}).*?\} находит самый глубоко вложенный блок выделенный фигурными скобками перед которым нет слова try. Результат выполнения:
1. { MessageBox.Show(e1.ToString(), "Error"); }
2. { listBox1.EndUpdate(); }
В этих примерах жирным выделены Lookahead– и Lookbehind-условия.
Еще примеры
Вот еще несколько примеров использования регулярных выражений, более приближенных к реальной жизни.
Перестановка двух первых слов:
s/(\S+)(\s+)(\S+)/$3$2$1/
В других языках замена обычно делается отдельным методом, одним из параметров передается шаблон замены, где можно использовать переменные $1, $2, $3 и т.д.
Поиск пар name=value:
m/(\w+)\s*=\s*(.*?)\s*$/
Здесь имя – в $1, а значение – в $2.
Чтение даты в формате YYYY-MM-DD:
m/(\d{4})-(\d\d)-(\d\d)/
Теперь YYYY – в $1, MM – в $2, DD – в $3.
Выделение пути из имени файла:
m/^.*(\\|\/)
В "Y:\KS\regExp\!.Net\Compilation\ms-6D(1).tmp" такое выражение найдет "Y:\KS\regExp\!.Net\Compilation\"
Будучи примененным к файлу C++, выделяет комментарии, строки и идентификаторы "new", "static char" и "const". Работает и на старом RegExp:
("(\\"|\\\\|[^"])*"|/\*.*\*/|//[^\r]*|#\S+|\b(new|static char|const)\b)
Выделяет тег в HTML-коде:
<\s*a("[^"]*"|[^>])*>
Регулярные выражения в .Net
Как уже упоминалось выше, регулярные выражения широко используются практически во всех языках программирования. Каждый из языков накладывает свой отпечаток на синтаксис регулярных выражений, хотя суть и не меняется. Так, например, то, что в JScript пишется /a.c/, в VBScript, естественно, будет "a.c".
Microsoft всегда старается сделать все по-своему, поэтому синтаксис регулярных выражений .NET несколько расширен, и включает ряд новых возможностей – например, поиск справа налево. Пишущие по-арабски поймут, зачем это нужно.
Символ |
Значение |
\w |
Слово. То же, что и [a-zA-Z_0-9]. |
\W |
Все, кроме слов. То же, что и [^a-zA-Z_0-9]. |
\s |
Любое пустое место. То же, что и [ \f\n\r\t\v]. |
\S |
Любое непустое место. То же, что и [^ \f\n\r\t\v]. |
\d |
Десятичная цифра. То же, что и [0-9]. |
\D |
Не цифра. То же, что и [^0-9]. |
Кстати, регулярные выражения в .Net умеют понимать русский язык. Особенно интересно и слегка непривычно то, что они делают это корректно. В Help'е сказано, например, что при поиске границы слова с использованием \b работают символы [a-zA-Z_0-9], однако верить этому не следует. На практике это не так. Русские буквы ищутся и находятся не хуже латиницы. Впрочем, может быть, к release-версии все будет приведено к соответствию с Help'ом.
Читать дальше