正则表达式

2019-04-29 | 阅读：次

正则表达式

可以判断用户数据是否符合自己的要求
清洗从网站上爬下来的数据

re模块

在 Python 中使用正则表达式时，需要用到 re 模块，使用如下：

# 导入re模块
    import re

    # 使用match方法进行匹配操作
    result = re.match(正则表达式,要匹配的字符串)

    # 如果上一步匹配到数据的话，可以使用group方法来提取数据
    result.group()

匹配单个字符

字符	功能
^	匹配字符串的开头
$	匹配字符串的结尾
.	匹配任意1个字符（除了\n）
[ ]	匹配[ ]中列举的字符
\d	匹配数字，即0-9
\D	匹配非数字，即不是数字
\s	匹配空白，即空格，tab键
\S	匹配非空白
\w	匹配单词字符，即a-z、A-Z、0-9、_
\W	匹配非单词字符

匹配多个字符

字符	功能
*	匹配前一个字符出现0次或者无限次，即可有可无
+	匹配前一个字符出现1次或者无限次，即至少有1次
?	匹配前一个字符出现1次或者0次，即要么有1次，要么没有
{m}	匹配前一个字符出现m次
{m,n}	匹配前一个字符出现从m到n次

匹配分组

字符	功能
\|	匹配左右任意一个表达式
(ab)	将括号中字符作为一个分组
`\num`	引用分组num匹配到的字符串
`(?P<name>)`	分组起别名
(?P=name)	引用别名为name分组匹配到的字符串

re.match()

可实现从头开始匹配

例1：

import re

def main():
    """匹配变量名是否符合要求"""
    names = ["age", "_age", "1age", "age1", "age!"]
    for name in names:
        ret = re.match(r"^[a-zA-z_][a-zA-Z0-9_]*$", name)
        if ret:
            print("变量名：%s 符合要求...." % name)
        else:
            print("变量名：%s 不符合要求....." % name)

if __name__ == '__main__':
    main()

例2：

import re

def main():
   """匹配163的邮箱地址"""
   email = input("请输入邮箱：")
    # 反斜杠\转义，可以用.?等
    ret = re.match(r"^[0-9a-zA-Z_]{4,20}@163\.com$", email)
    if ret:
        print("%s 符合要求，匹配后的结果是：%s" % (email, ret.group()))
    else:
        print("%s 符合要求，请正确输入...")

if __name__ == '__main__':
    main()

例3

import re

# 能够完成对正确的字符串的匹配
ret = re.match("<[a-zA-Z]*>\w*</[a-zA-Z]*>", "<html>hh</html>")
print(ret.group())

# 如果遇到非正常的html格式字符串，匹配出错
ret = re.match("<[a-zA-Z]*>\w*</[a-zA-Z]*>", "<html>hh</htmlbalabala>")
print(ret.group())

# 正确的理解思路：如果在第一对<>中是什么，按理说在后面的那对<>中就应该是什么

# 通过引用分组中匹配到的数据即可，但是要注意是元字符串，即类似 r""这种格式
ret = re.match(r"<([a-zA-Z]*)>\w*</\1>", "<html>hh</html>")
print(ret.group())

re.search()

不会从头开始匹配

import re

ret = re.search(r"\d+", "阅读次数为 9999")
ret.group()

运行结果：

'9999'

re.findall()

该方法直接返回一个列表，不需用 group()

import re

ret = re.findall(r"\d+", "python = 9999, c = 7890, c++ = 12345")
print(ret)

运行结果：

['9999', '7890', '12345']

re.sub()

将匹配到的数据进行替换，不需要用 group()

import re

ret = re.sub(r"\d+", '998', "python = 997")
print(ret)

运行结果：

python = 998

用函数

import re

def add(temp):
    strNum = temp.group()
    num = int(strNum) + 1
    return str(num)

ret = re.sub(r"\d+", add, "python = 997")
print(ret)

ret = re.sub(r"\d+", add, "python = 99")
print(ret)

运行结果：

python = 998
python = 100

re.split()

根据匹配进行切割字符串，并返回一个列表，不需要用 group()

import re

# 按：或者空格 来切割
ret = re.split(r":| ","info:xiaoZhang 33 shandong")
print(ret)

运行结果：

['info', 'xiaoZhang', '33', 'shandong']

END….

FXHao

FXHao

正则表达式

正则表达式

re模块

匹配单个字符

匹配多个字符

匹配分组

re.match()

re.search()

re.findall()

re.sub()

re.split()