"345 Euneva Avenue, Suite 23", "678 Euneva Ave, Suite A"]
Здесь каждый адрес состоит из трех частей: номер дома, название улицы и необязательный номер квартиры. Я предполагаю, что перед числом может быть необязательная строка No.
, а точку в ней можно опускать. Еще предположим, что название улицы может включать символы, обычно входящие в состав слова, а также апостроф, дефис и точку. Наконец, если адрес содержит необязательный номер квартиры, то ему должны предшествовать запятая и одна из строк Apt.
, Suit
e или #
(знак номера).
Вот какое регулярное выражение я составил для разбора адреса. Обратите внимание, насколько подробно оно прокомментировано (может быть, даже излишне подробно):
regex = / ^ # Начало строки.
((No\.?)\s+)? # Необязательно: No[.]
\d+ \s+ # Цифры и пробелы.
((\w|[.'-])+ # Название улицы... может
\s* # состоять из нескольких слов.
)+
(,\s* # Необязательно: запятая и т.д.
(Apt\.?|Suite|\#) # Apt[.], Suite, #
\s+ # Пробелы.
(\d+|[A-Z]) # Цифры или одна буква.
)?
$ # Конец строки.
/x
Идея понятна. Когда сложность регулярного выражения достигает некоего порога (какого именно — дело вкуса), делайте его обобщенным, чтобы можно было добавить форматирование и комментарии.
Возможно, вы заметили, что я пользовался обычными комментариями Ruby ( # ...
), а не специальными, применяемыми в регулярных выражениях ( (?#...)
). Почему? Просто потому, что это разрешено! Специальный комментарий необходим только тогда, когда его следует закончить раньше конца строки (например, если в той же строке за комментарием продолжается регулярное выражение).
3.10. Сопоставление точки символу конца строки
Обычно точка соответствует любому символу, кроме конца строки. Если задан модификатор многострочности m, точка будет сопоставляться и с этим символом. Другой способ — задать флаг Regexp::MULTILINE
при создании регулярного выражения:
str = "Rubies are red\nAnd violets are blue.\n"
pat1 = /red./
pat2 = /red./m
str =~ pat1 # nil
str =~ pat2 # 11
Этот режим не оказывает влияния на то, где устанавливается соответствие якорям ( ^
, $
, \A
, \Z
). Изменяется только способ сопоставления с точкой.
3.11. Внутренние модификаторы
Обычно модификаторы (например, i
или m
) задаются после регулярного выражения. Но что если мы хотим применить модификатор только к части выражения?
Существует специальная нотация для включения и выключения модификаторов. Заключенный в круглые скобки вопросительный знак, за которым следует один или несколько модификаторов, «включает» их до конца регулярного выражения. А если некоторым модификаторам предшествует минус, то соответствующие режимы «выключаются»:
/abc(?i)def/ # Соответствует abcdef, abcDEF, abcDef,
# но не ABCdef.
/ab(?i)cd(?-i)ef/# Соответствует abcdef, abCDef, abcDef, ...,
# но не ABcdef или abcdEF.
/(?imx).*/ # To же, что /.*/imx
/abc(?i-m).*/m # Для последней части регулярного выражения включить
# распознавание регистра, выключить многострочный
# режим.
При желании можно поставить перед подвыражением двоеточие, и тогда заданные модификаторы будут действовать только для этого подвыражения:
/ab(?i:cd)ef/ # То же, что /ab(?i)cd(?-i)ef/
По техническим причинам использовать таким образом модификатор о
нельзя. Модификатор x
— можно, но я не знаю, кому бы это могло понадобиться.
3.12. Внутренние подвыражения
Для указания подвыражений применяется нотация ?>
:
re = /(?>abc)(?>def)/ # То же, что /abcdef/
re.match("abcdef").to_a # ["abcdef"]
Отметим, что наличие подвыражения еще не означает группировки. С помощью дополнительных скобок их, конечно, можно превратить в запоминаемые группы.
Еще обратим внимание на то, что эта конструкция собственническая, то есть жадная и при этом не допускает возврата в подвыражение.
str = "abccccdef"
re1 = /(abc*)cdef/
re2 = /(?>abc*)cdef/
re1 =~ str # 0
re2 =~ str # nil
re1.match(str).to_a # ["abccccdef", "abccc"]
re2.match(str).to_a # []
В предыдущем примере подвыражение abc*
выражения re2
поглощает все вхождения буквы с
и (в соответствии с собственническим инстинктом) не отдает их назад, препятствуя возврату.
Читать дальше
Конец ознакомительного отрывка
Купить книгу