FXHao

个人站

欢迎来到我的小世界~哈哈哈~


正则表达式

正则表达式

  • 可以判断用户数据是否符合自己的要求
  • 清洗从网站上爬下来的数据

re模块

  • 在 Python 中使用正则表达式时,需要用到 re 模块,使用如下:
# 导入re模块
    import re

    # 使用match方法进行匹配操作
    result = re.match(正则表达式,要匹配的字符串)

    # 如果上一步匹配到数据的话,可以使用group方法来提取数据
    result.group()

匹配单个字符

字符 功能
^ 匹配字符串的开头
$ 匹配字符串的结尾
. 匹配任意1个字符(除了\n)
[ ] 匹配[ ]中列举的字符
\d 匹配数字,即0-9
\D 匹配非数字,即不是数字
\s 匹配空白,即 空格,tab键
\S 匹配非空白
\w 匹配单词字符,即a-z、A-Z、0-9、_
\W 匹配非单词字符

匹配多个字符

字符 功能
* 匹配前一个字符出现0次或者无限次,即可有可无
+ 匹配前一个字符出现1次或者无限次,即至少有1次
? 匹配前一个字符出现1次或者0次,即要么有1次,要么没有
{m} 匹配前一个字符出现m次
{m,n} 匹配前一个字符出现从m到n次

匹配分组

字符 功能
| 匹配左右任意一个表达式
(ab) 将括号中字符作为一个分组
\num 引用分组num匹配到的字符串
(?P<name>) 分组起别名
(?P=name) 引用别名为name分组匹配到的字符串

re.match()

  • 可实现从头开始匹配

例1:

import re

def main():
    """匹配变量名是否符合要求"""
    names = ["age", "_age", "1age", "age1", "age!"]
    for name in names:
        ret = re.match(r"^[a-zA-z_][a-zA-Z0-9_]*$", name)
        if ret:
            print("变量名:%s 符合要求...." % name)
        else:
            print("变量名:%s 不符合要求....." % name)

if __name__ == '__main__':
    main()

例2:

import re

def main():
   """匹配163的邮箱地址"""
   email = input("请输入邮箱:")
    # 反斜杠\转义,可以用.?等
    ret = re.match(r"^[0-9a-zA-Z_]{4,20}@163\.com$", email)
    if ret:
        print("%s 符合要求,匹配后的结果是:%s" % (email, ret.group()))
    else:
        print("%s 符合要求,请正确输入...")

if __name__ == '__main__':
    main()

例3

import re

# 能够完成对正确的字符串的匹配
ret = re.match("<[a-zA-Z]*>\w*</[a-zA-Z]*>", "<html>hh</html>")
print(ret.group())

# 如果遇到非正常的html格式字符串,匹配出错
ret = re.match("<[a-zA-Z]*>\w*</[a-zA-Z]*>", "<html>hh</htmlbalabala>")
print(ret.group())

# 正确的理解思路:如果在第一对<>中是什么,按理说在后面的那对<>中就应该是什么

# 通过引用分组中匹配到的数据即可,但是要注意是元字符串,即类似 r""这种格式
ret = re.match(r"<([a-zA-Z]*)>\w*</\1>", "<html>hh</html>")
print(ret.group())

re.search()

  • 不会从头开始匹配
import re

ret = re.search(r"\d+", "阅读次数为 9999")
ret.group()

运行结果:

'9999'

re.findall()

  • 该方法直接返回一个列表,不需用 group()
import re

ret = re.findall(r"\d+", "python = 9999, c = 7890, c++ = 12345")
print(ret)

运行结果:

['9999', '7890', '12345']

re.sub()

  • 将匹配到的数据进行替换,不需要用 group()
import re

ret = re.sub(r"\d+", '998', "python = 997")
print(ret)

运行结果:

python = 998
  • 用函数
import re

def add(temp):
    strNum = temp.group()
    num = int(strNum) + 1
    return str(num)

ret = re.sub(r"\d+", add, "python = 997")
print(ret)

ret = re.sub(r"\d+", add, "python = 99")
print(ret)

运行结果:

python = 998
python = 100

re.split()

  • 根据匹配进行切割字符串,并返回一个列表,不需要用 group()
import re

# 按:或者空格 来切割
ret = re.split(r":| ","info:xiaoZhang 33 shandong")
print(ret)

运行结果:

['info', 'xiaoZhang', '33', 'shandong']

END….