Python的爬虫必备知识点：正则表达式

嗨学编程发布时间：2019-04-12 20:19:31 ，浏览量：5

正则表达式

正则表达式是对于it来说最常用的一个，就是用事先定义好的一些特定的字符，及这些特定的组合，组成一个"规则字符串"，

规则

模式描述^匹配字符串的开头$匹配字符串的末尾.匹配任意字符，除了换行符，当re.DOTALL标记被指定时，则可以匹配包括换行符的任意字符[…]用来表示一组字符,单独列出：[amk] 匹配 ‘a’，‘m’或’k’[^…]不在[]中的字符：[^abc] 匹配除了a,b,c之外的字符re*匹配0个或多个的表达式re+匹配1个或多个的表达式re?匹配0个或1个由前面的正则表达式定义的片段，非贪婪方式re{ n} re{ n,}精确匹配n个前面表达式re{ n, m}匹配 n 到 m 次由前面的正则表达式定义的片段，贪婪方式ab(re)G匹配括号内的表达式，也表示一个组(?imx)正则表达式包含三种可选标志：i, m, 或 x 。只影响括号中的区域(?-imx)正则表达式关闭 i, m, 或 x 可选标志。只影响括号中的区域(?: re)类似 (…), 但是不表示一个组(?imx: re)在括号中使用i, m, 或 x 可选标志(?-imx: re)在括号中不使用i, m, 或 x 可选标志(?#…)注释(?= re)前向肯定界定符。如果所含正则表达式，以 … 表示，在当前位置成功匹配时成功，否则失败。但一旦所含表达式已经尝试，匹配引擎根本没有提高；模式的剩余部分还要尝试界定符的右边。(?! re)前向否定界定符。与肯定界定符相反；当所含表达式不能在字符串当前位置匹配时成功(?> re)匹配的独立模式，省去回溯\w匹配字母数字及下划线\W匹配非字母数字及下划线\s匹配任意空白字符，等价于 [\t\n\r\f].\S匹配任意非空字符\d匹配任意数字，等价于 [0-9]\D匹配任意非数字\A匹配字符串开始\Z匹配字符串结束，如果是存在换行，只匹配到换行前的结束字符串。c\z匹配字符串结束\G匹配最后匹配完成的位置\b匹配一个单词边界，也就是指单词和空格间的位置。例如， ‘er\b’ 可以匹配"never" 中的 ‘er’，但不能匹配 “verb” 中的 ‘er’\B匹配非单词边界。‘er\B’ 能匹配 “verb” 中的 ‘er’，但不能匹配 “never” 中的 ‘er’\n, \t, 等.匹配一个换行符。匹配一个制表符。等\1…\9匹配第n个分组的内容\10匹配第n个分组的内容，如果它经匹配。否则指的是八进制字符码的表达式[\u4e00-\u9fa5]中文 Python学习交流群：973783996 正则表达式相关注解

数量词的贪婪模式与非贪婪模式

正则表达式通常用于在文本中查找匹配的字符串 Python里数量词默认是贪婪的（在少数语言里也可能是默认非贪婪），总是尝试匹配尽可能多的字符；非贪婪的则相反，总是尝试匹配尽可能少的字符

例如：正则表达式”ab*”如果用于查找”abbbc”，将找到”abbb”。而如果使用非贪婪的数量词”ab*?”，将找到”a”

常用方法

re.match
- re.match 尝试从字符串的起始位置匹配一个模式，如果不是起始位置匹配成功的话，match()就返回none
- 函数语法： re.match(pattern, string, flags=0)
re.search
- re.search 扫描整个字符串并返回第一个成功的匹配。
- 函数语法： re.search(pattern, string, flags=0)
re.sub
- re.sub 替换字符串 re.sub(pattern,replace,string)
re.findall
- re.findall 查找全部 re.findall(pattern,string,flags=0)

关注

打赏

1688896170

查看更多评论

Python的爬虫必备知识点：正则表达式

[ 申请 ]友情链接：