- 一、命令介绍
- grep
- egrep
- fgrep
- 二、正则表达式元字符扩展集
- 三、POSIX 字符集
一种强大的文本搜索工具,用于在文件内查找指定的字符串,在不使用转义符的前提下支持基本的正则表达式来搜索文本,并把匹配的行打印出来。
Linux 使用 GNU 版本的 grep
。它可以通过 -G
、-E
、-F
等选项来使用 egrep
和 fgrep
的功能。
grep
的工作方式是这样的,它在一个或多个文件中搜索模板(pattern
)。如果模板包括空格,则必须使用双引号将其包裹起来,模板后的所有字符串被看作文件名。
grep
可用于 shell
脚本,因为 grep
通过返回一个状态值来说明搜索的状态,如果模板搜索成功,则返回 0
,如果搜索不成功,则返回 1
,如果搜索的文件不存在,则返回 2
。我们利用这些返回值就可进行一些自动化的文本处理工作。
egrep
,称为扩展的 grep
命令,其实和 grep -E
等价,支持基本和扩展的正则表达式,使用的语法及参数可参照 grep
指令,与 grep
的不同点在于解读字符串的方法。egrep
是用 extended regular expression
语法来解读的,而 grep
则用 basic regular expression
语法解读,extended regular expression
比 basic regular expression
的表达更规范。
fgrep
就是 fixed grep
或 fast grep
,等同于 grep -F
。它把所有的字符都看作普通字符,也就是说,正则表达式中的元字符全部按字符原义解释。
fgrep
命令搜索字符串而不是搜索匹配表达式的模式。它利用固定的字符串来对文本进行搜索,但不支持正则表达式的引用,所以此命令的执行速度也最快。
在扩展的正则表达中把写成 \(\)
写成 ()
、\{ \}
写成 {}
,加入了 +
限定符,表示匹配其前面的元素至少出现一次,无上限;加入了 ?
限定符,表示匹配其前面的元素 0 个或者 1 个;新增了或符号 |
,表示或者的意思。基本正则表达式使用 ()
、{}
、+
、?
、|
都需要加 \
进行转义,在扩展正则表达中不需要。
+
匹配一个或多个前面的元素。如:[a-z]+able
,表示匹配一个或多个小写字母后跟着 able
的串,如 loveable
、enable
、disable
、aable
等。在 grep
的 pattern
中需要转义,写成 \+
?
匹配零个或 1
个前面的元素。如:gr?p
,表示匹配 gp
或者 grp
,即字符 r
可有可无|
代表或者的意思。如:a|b|c
表示匹配 a
或 b
或 c
;如:grep|sed
表示匹配 grep
或 sed
。在 grep
中需要转义,写成 \|
,或者通过选项 -E
来实现,如:grep -E 'c|cat' filename
,表示在文件 filename
内查找 c
或者 cat
,而 egrep
直接写成:egrep 'c|cat' filename
。()
分组符号,如:love(able|rs)
,表示匹配 loveable
或 lovers
;如:(ov)+
,表示匹配一个或多个 ov
,即匹配至少一个 ov
。在 grep
中需要使用转义符,写成 \(\)
{m,n}
匹配其前面的元素 m
到 n
次 。在 grep
中直接使用区间量词,需要转义,写成:\{m,n\}
三、POSIX 字符集
为了在不同国家的字符编码中保持一致,POSIX(The Portable Operating System Interface)
增加了特殊的字符类,如 [:alnum:]
是 A-Za-z0-9
的另一个写法。要把它们放到 []
号内才能成为正则表达式,如:[A- Za-z0-9]
等价于 [[:alnum:]]
。除了 fgrep
,grep
和 egrep
都支持 POSIX 字符集。
注:如果在英语系的国家中,上述的文字字符就是指英文字母。另外POSIX 字符集可以参考《正则表达式详解》中的 POSIX 字符集章节。