03-用正则表达式查找文本模式
7.2 用正则表达式查找文本模式
前面的电话号码查找程序能工作,但它使用了很多代码,做的事却有限: isPhoneNumber()
函数有17行,但只能查找一种电话号码模式。像415.555.4242或(415)555-4242这样的电话号码格式该怎么办呢?如果电话号码有分机,例如415-555-4242 x99,该怎么办呢? isPhoneNumber()
函数在验证它们时会失败。你可以添加更多的代码来处理额外的模式,但还有更简单的方法。
正则表达式简称为“ regex
”,是文本模式的描述方法。例如, \d
是一个正则表达式,表示一位数字字符,即任何一位0~9的数字。Python使用正则表达式 \d\d\d-\d\d\d-\d\d\d\d
来匹配前面 isPhoneNumber()
函数匹配的同样文本:3个数字、一个短横线、3个数字、一个短横线、4个数字。所有其他字符串都不能匹配 \d\d\d-\d\d\d-\d\d\d\d
正则表达式。
但正则表达式可以复杂得多。例如,在一个模式后加上花括号包围的3( {3}
),表示“匹配这个模式3次”。所以较短的正则表达式 \d{3}-\d{3}-\d{4}
也匹配正确的电话号码格式。