Регулярни изрази

История

Разработени са като чисто теоритичен модел около 1950г.
В езикът SNOBOL присъстват понятия като pattern matching през 1962г.
Кен Томпсън ги имплементира в QED за CTSS
Денис Ричи ги имплементира в QED за GE-TSS
Двамата по-късно създават UNIX и ги вкарват там
От 1970 насам има ed, sed, grep, egrep, awk, and lex...
В PERL се стандартизират като PCRE

Проблемна област

Най-общо: работа с текстови низове

Търсене на по-сложна последователност от символи в низ
Заместване на такива последователности с нещо друго
Проверка дали даден низ отговаря на определени условия (валидация)

Call me maybe?

Искаме да проверим дали даден низ е валиден мобилен номер.
Това означава:

Трябва да съдържа само цифри
Трябва да започва с код на някой от местните мобилни оператори(087, 088, 089)
Първата цифра след кода не може да е 0 или 1
След това, дължината му трябва да е 6 (шест) цифри

Пф. Тривиално

func isValidMobilePhone(number string) bool {
    code := number[:3]
    if code != "087" && code != "088" && code != "089" {
        return false
    }

    if number[3] == '0' || number[3] == '1' {
        return false
    }

    return len(number[4:]) == 6
}

Пф. Тривиално и адекватно

func isValidMobilePhone(number string) bool {
    return regexp.MustCompile(`^08[789][2-9]\d{6}$`).MatchString(number)
}

Nice, a?

Понятия и терминология

„шаблон“, още „регулярен израз“ (pattern)
Специални символи (meta characters)
Екраниране на специалните символи (escape-ване)
Повторители и повторение (quantifiers and repetition)
Класове от символи (character classes)
Групи
Флагове (modifiers) на шаблона

Регулярните изрази в контекста на Go

Имплементирани са в пакета regexp
Всеки регулярен израз е от типa regexp.Regexp
Всеки регулярен израз се дефинира с ` около себе си
Той има 16 метода за търсене на даден израз в стринг
Find(All)?(String)?(Submatch)?(Index)?
Има и методи за Match, Split и Replace

godoc regexp
godoc regexp/syntax

Задаване на шаблон

Всеки символ, освен някои специални, означава себе си.

Цялата магия е в специалните символи:
. \| ( ) [ ] { } + \ ^ $ * ?

Някои символи са специални само в определен контекст (например символът -)

Компилация на регулярен израз

Преди да можем да използваме нашия регулярен израз, той трябва да бъде компилиран
В някои езици тази стъпка може да бъде изпусната от програмиста и се изпълнява имплицитно
В Go това може да се направи с метода Compile() или MustCompile()

re, err := regexp.Compile(`Hello`)
re := regexp.MustCompile(`Hello`)

Второто изпада в паника, ако регулярният израз не е валиден

Пример

package main

import (
	"fmt"
	"regexp"
)

func main() {
    re := regexp.MustCompile(`Hello`)

    if re.MatchString("Hello Regular Expression.") {
        fmt.Println("Match")
    } else {
        fmt.Println("No match")
    }
}

func matcher(pattern, text string)

Примерите ще демонстрираме чрез нея
Не е част от стандартната библиотека
Ще ви покажем 7-те й реда код по-късно.

package main

import (
	"fmt"
	"regexp"
)

// second_start OMIT
func matcher(pattern, text string) {
	match := regexp.MustCompile(pattern).FindStringIndex(text)
	if match == nil {
		fmt.Printf("No match for `%s` in \"%s\"\n", pattern, text)
		return
	}

	begin := match[0]
	end := match[1]
	fmt.Printf("%s(%s)%s\n", text[:begin], text[begin:end], text[end:])
}

func main() {

    matcher(`pat`, "Find a pattern.") // Find a (pat)tern.
    matcher(`#`, "What the ###?")     // What the (#)##?

Магия от level 1 -- Повторения (quantifiers)

Важат за непосредствено предхождащия ги символ/клас/група; ще го означим със s
s* означава нула или повече повторения на s
s+ търси едно или повече повторения на s
s? съвпада с нула или едно повторение на s
s{m,n} означава между m и n повторения на s

В последното можем да пропуснем m или n:

s{,n} има смисъл на нула до n повторения, а s{m,} — поне m повторения
s{n} означава точно n повторения

Примери

matcher(`test a*`, "the test aaaa bbbb") // the (test aaaa) bbbb
matcher(`test b*`, "the test aaaa bbbb") // the (test )aaaa bbbb

matcher(`test a?`, "the test aaaa bbbb") // the (test a)aaa bbbb
matcher(`test b?`, "the test aaaa bbbb") // the (test )aaaa bbbb

matcher(`test a+`, "the test aaaa bbbb") // the (test aaaa) bbbb
matcher(`test b+`, "the test aaaa bbbb") // no match

matcher(`test a{1,3}`, "the test aaaa bbbb") // the (test aaa)a bbbb

Алчност (greedy)

По подразбиране повторителите са "алчни", т.е. изяждат колкото се може повече от низа
Това поведение може да се контролира с ? след квантора
Например .*? кара повторителя * да се държи не-лакомо

matcher(`[hH]o+`, "Hoooooohohooo...")  // (Hoooooo)hohooo...
matcher(`[hH]o+?`, "Hoooooohohooo...") // (Ho)ooooohohooo...

Примери

matcher(`o+`, "Goooooooogle")                  // G(oooooooo)gle

matcher(`[hH]o+`, "Hohohoho...")               // (Ho)hohoho...

Хм. Не искахме точно това. По-скоро:

matcher(`([hH]o)+`, "Hohohoho...")             // (Hohohoho)...

matcher(`([hH]o){2,3}`, "Hohohoho...")         // (Hohoho)ho...

Скоби и групиране

Символите ( и ) се използват за логическо групиране на части от шаблона с цел:

Контролиране областта на влияние на дадена операция
Възможност за референция към "ограденото" в скобите
Задаване на по-специални (и не толкова често употребявани) конструкции

Повече за тях -- след малко

Значение на специалните символи

Символът | има смисъла на "или"

matcher(`day|nice`, "A nice dance-day.")  // A (nice) dance-day.
matcher(`da(y|n)ce`, "A nice dance-day.") // A nice (dance)-day.

NB! Единствено | се прилага не над непосредствените му
символи/класове, а на целия низ отляво/отдясно:

matcher(`ab|c|e`, "abcdef")   // (ab)cdef
matcher(`am|c|e`, "abcdef")   // ab(c)def
matcher(`a(m)|c|e`, "abcdef") // ab(c)def

Символни класове

Набор от символи, заграден от [ и ], например [aeoui].
Съвпадат с точно един от символите, описани в класа:

matcher(`[aeoui]`, "Google") // G(o)ogle

Отрицание на символен клас -- ^ в началото на класа:

matcher(`[^CBL][aeoui]`, "Cobol") // 'Co(bo)l'

Диапазон от символи -- - между два символа в символен клас:

matcher(`[0-9]{1,3}-[a-z]`, "Figure 42-b") // Figure (42-b)
matcher(`[^a-zA-Z-]`, "Figure-42-b")       // Figure-(4)2-b

Предефинирани класове от символи

\w - символ от дума ([a-zA-Z0-9_])
\W - символ, който не може да участва в дума ([^a-zA-Z0-9_])
\d - цифра ([0-9])
\D - символ, който не е цифра ([^0-9])
\s - whitespace-символ (`[ \t\r\n\f]`)
\S - символ, който не е whitespace (`[^ \t\r\n\f]`)

Екраниране на специалните символи (escape-ване)

\ пред специален символ го прави неспециален такъв (екранира го)
За да хванете наклонена черта, ползвате \\

Групи и прихващане

Символите ( и ) се използват за логическо групиране на части от шаблона с цел:

Контролиране областта на влияние на дадена операция
Например, следното ще match-ва низове, съдържащи думите day или dance: \bda(y|nce)\b
Възможност за референция към „ограденото“ в скобите
Задаване на по-специални (и не толкова често употребявани) конструкции

re := regexp.MustCompile(`.at`)
res := re.FindAllStringSubmatch("The cat sat on the mat.", -1)
fmt.Printf("%v", res)
// [[cat] [sat] [mat]]

Find and replace

Можем да разменим местата на две думи

re := regexp.MustCompile("([a-z]+) ([a-z]+)")
re.ReplaceAllString("foo bar", "$2 $1")

или да имаме по-сложна логикa, върху всяко от съвпаденията

re.ReplaceAllStringFunc("foo with bar", func(match string) string {
        if len(match) > 3 {
                return match + "!!!"
        }
        return match
})
// foo with!!! bar

или ...

re := regexp.MustCompile("a(x*)b")
fmt.Println(re.ReplaceAllLiteralString("-ab-axxb-", "Щ"))
// -Щ-Щ-

Обяснете последното :)

Split

Често strings.Split() е крайно недостатъчен.

re := regexp.MustCompile("[0-9]")
re.Split("Помощ1не2ми3работи4space5клавиша!", -1)
// []string{"Помощ" "не" "ми" "работи" "space" "клавиша!"}

Вторият аргумент указва максималната дължина на върнатия слайс.

re := regexp.MustCompile("[0-9]")
re.Split("Помощ1не2ми3работи4space5клавиша!", 3)
// []string{"Помощ" "не" "ми3работи4space5клавиша!"}

ASCII character classes:

[:alnum:] alphanumeric ([0-9A-Za-z])
[:alpha:] alphabetic ([A-Za-z])
[:ascii:] ASCII ([\x00-\x7F])
[:blank:] blank ([\t ])
[:cntrl:] control ([\x00-\x1F\x7F])
[:digit:] digits ([0-9])
[:graph:] graphical ([!-~] == [A-Za-z0-9!"#$%&'()*+,\-./:;<=>?@[\\\]^_`{|}~])
...

...

[:lower:] lower case ([a-z])
[:print:] printable ([ -~] == [ [:graph:]])
[:punct:] punctuation ([!-/:-@[-`{-~])
[:space:] whitespace ([\t\n\v\f\r ])
[:upper:] upper case ([A-Z])
[:word:] word characters ([0-9A-Za-z_])
[:xdigit:] hex digit ([0-9A-Fa-f])

Unicode character class names--scripts:

Arabic
Braille
Buginese
Canadian_Aboriginal
Cherokee
Cyrillic
Gothic
Greek
[...]

matcher(`\p{Cyrillic}`, "Bаba") // B(a)ba

* първото а е "нашенско"

Котви

Не съвпадат с реални символи, а вместо това с невидимите граници между тях
^ съвпада с началото на низ или ред в multiline режим
$ съвпада с края на низ или ред в multiline режим
\A съвпада с началото на текстов низ
\z съвпада с края на низ
\b отговаря на граница на дума (когато е извън [ и ]; вътре означава backspace)
\B отговаря на място, което не е граница на дума

Флагове

i case-insensitive
m multi-line mode: ^ и $ хващат И начало на ред и край на ред
s Позволяват на . да хваща \n
U ungreedy: обръщат значението на x* и x*?, x+ и x+?, ...

regexp.Compile(`(?i)n`)

Кодът на matcher()

package main

import (
	"fmt"
	"regexp"
)

func matcher(pattern, text string) {
    match := regexp.MustCompile(pattern).FindStringIndex(text)
    if match == nil {
        fmt.Printf("No match for `%s` in \"%s\"\n", pattern, text)
        return
    }

    begin := match[0]
    end := match[1]
    fmt.Printf("%s(%s)%s\n", text[:begin], text[begin:end], text[end:])
}

func main() {
    matcher(`pat`, "Find a pattern.") // Find a (pat)tern.
    matcher(`#`, "What the ###?")     // What the (#)##?
}

След като вече всички сме наясно, че са мега яки...

Encouraging regular expressions as a panacea for all text processing
problems is not only lazy and poor engineering, it also reinforces
their use by people who shouldn't be using them at all.

-- Rob Pike

commandcenter.blogspot.ch/2011/08/regular-expressions-in-lexing-and.html

Regular Expression Matching Can Be Simple And Fast

but is slow in Java, Perl, PHP, Python, Ruby, ...

Russ Cox
rsc@swtch.com
January 2007

swtch.com/~rsc/regexp/regexp1.html

Хитринка

Помните ли повторителите в регулярните изрази? И при тях можем да изключваме алчността.
Променя държанието в това да се стреми да хване възможно най-малко.

s*?
s+?
s??
s{n,m}?
s{n,}?

Регулярни изрази

01.12.2015

История

Проблемна област

Call me maybe?

Пф. Тривиално

Пф. Тривиално и адекватно

Понятия и терминология

Регулярните изрази в контекста на Go

Задаване на шаблон

Компилация на регулярен израз

Пример

func matcher(pattern, text string)

Магия от level 1 -- Повторения (quantifiers)

Примери

Алчност (greedy)

Примери

Скоби и групиране

Значение на специалните символи

Символни класове

Предефинирани класове от символи

Екраниране на специалните символи (escape-ване)

Групи и прихващане

Find and replace

Split

ASCII character classes:

...

Unicode character class names--scripts:

Котви

Флагове

Кодът на matcher()

След като вече всички сме наясно, че са мега яки...

Regular Expression Matching Can Be Simple And Fast

Хитринка

Въпроси?