您当前的位置: 首页 >  Python

嗨学编程

暂无认证

  • 0浏览

    0关注

    1405博文

    0收益

  • 0浏览

    0点赞

    0打赏

    0留言

私信
关注
热门博文

Python的爬虫必备知识点:正则表达式

嗨学编程 发布时间:2019-04-12 20:19:31 ,浏览量:0

正则表达式

正则表达式是 对于it来说最常用的一个,就是用事先定义好的一些特定的字符,及这些特定的组合,组成一个"规则字符串",

规则

模式描述^匹配字符串的开头$匹配字符串的末尾.匹配任意字符,除了换行符,当re.DOTALL标记被指定时,则可以匹配包括换行符的任意字符[…]用来表示一组字符,单独列出:[amk] 匹配 ‘a’,‘m’或’k’[^…]不在[]中的字符:[^abc] 匹配除了a,b,c之外的字符re*匹配0个或多个的表达式re+匹配1个或多个的表达式re?匹配0个或1个由前面的正则表达式定义的片段,非贪婪方式re{ n} re{ n,}精确匹配n个前面表达式re{ n, m}匹配 n 到 m 次由前面的正则表达式定义的片段,贪婪方式ab(re)G匹配括号内的表达式,也表示一个组(?imx)正则表达式包含三种可选标志:i, m, 或 x 。只影响括号中的区域(?-imx)正则表达式关闭 i, m, 或 x 可选标志。只影响括号中的区域(?: re)类似 (…), 但是不表示一个组(?imx: re)在括号中使用i, m, 或 x 可选标志(?-imx: re)在括号中不使用i, m, 或 x 可选标志(?#…)注释(?= re)前向肯定界定符。如果所含正则表达式,以 … 表示,在当前位置成功匹配时成功,否则失败。但一旦所含表达式已经尝试,匹配引擎根本没有提高;模式的剩余部分还要尝试界定符的右边。(?! re)前向否定界定符。与肯定界定符相反;当所含表达式不能在字符串当前位置匹配时成功(?> re)匹配的独立模式,省去回溯\w匹配字母数字及下划线\W匹配非字母数字及下划线\s匹配任意空白字符,等价于 [\t\n\r\f].\S匹配任意非空字符\d匹配任意数字,等价于 [0-9]\D匹配任意非数字\A匹配字符串开始\Z匹配字符串结束,如果是存在换行,只匹配到换行前的结束字符串。c\z匹配字符串结束\G匹配最后匹配完成的位置\b匹配一个单词边界,也就是指单词和空格间的位置。例如, ‘er\b’ 可以匹配"never" 中的 ‘er’,但不能匹配 “verb” 中的 ‘er’\B匹配非单词边界。‘er\B’ 能匹配 “verb” 中的 ‘er’,但不能匹配 “never” 中的 ‘er’\n, \t, 等.匹配一个换行符。匹配一个制表符。等\1…\9匹配第n个分组的内容\10匹配第n个分组的内容,如果它经匹配。否则指的是八进制字符码的表达式[\u4e00-\u9fa5]中文 Python学习交流群:973783996 正则表达式相关注解

数量词的贪婪模式与非贪婪模式

正则表达式通常用于在文本中查找匹配的字符串 Python里数量词默认是贪婪的(在少数语言里也可能是默认非贪婪),总是尝试匹配尽可能多的字符;非贪婪的则相反,总是尝试匹配尽可能少的字符

例如:正则表达式”ab*”如果用于查找”abbbc”,将找到”abbb”。而如果使用非贪婪的数量词”ab*?”,将找到”a”

常用方法

  • re.match
    • re.match 尝试从字符串的起始位置匹配一个模式,如果不是起始位置匹配成功的话,match()就返回none
    • 函数语法: re.match(pattern, string, flags=0)
  • re.search
    • re.search 扫描整个字符串并返回第一个成功的匹配。
    • 函数语法: re.search(pattern, string, flags=0)
  • re.sub
    • re.sub 替换字符串 re.sub(pattern,replace,string)
  • re.findall
    • re.findall 查找全部 re.findall(pattern,string,flags=0)

 

关注
打赏
1663681728
查看更多评论
立即登录/注册

微信扫码登录

0.0916s