当前位置:嗨网首页>书籍在线阅读

03-用正则表达式查找文本模式

  
选择背景色: 黄橙 洋红 淡粉 水蓝 草绿 白色 选择字体: 宋体 黑体 微软雅黑 楷体 选择字体大小: 恢复默认

7.2 用正则表达式查找文本模式

前面的电话号码查找程序能工作,但它使用了很多代码,做的事却有限: isPhoneNumber() 函数有17行,但只能查找一种电话号码模式。像415.555.4242或(415)555-4242这样的电话号码格式该怎么办呢?如果电话号码有分机,例如415-555-4242 x99,该怎么办呢? isPhoneNumber() 函数在验证它们时会失败。你可以添加更多的代码来处理额外的模式,但还有更简单的方法。

正则表达式简称为“ regex ”,是文本模式的描述方法。例如, \d 是一个正则表达式,表示一位数字字符,即任何一位0~9的数字。Python使用正则表达式 \d\d\d-\d\d\d-\d\d\d\d 来匹配前面 isPhoneNumber() 函数匹配的同样文本:3个数字、一个短横线、3个数字、一个短横线、4个数字。所有其他字符串都不能匹配 \d\d\d-\d\d\d-\d\d\d\d 正则表达式。

但正则表达式可以复杂得多。例如,在一个模式后加上花括号包围的3( {3} ),表示“匹配这个模式3次”。所以较短的正则表达式 \d{3}-\d{3}-\d{4} 也匹配正确的电话号码格式。