正则表达式概述


如果原来没有使用过正则表达式,那么可能对这个术语和概念会不太熟悉。不过,它们并不是您想象的那么新奇。

请回想一下在硬盘上是如何查找文件的。您肯定会使用 ? * 字符来帮助查找您正寻找的文件。? 字符匹配文件名中的单个字符,而 * 则匹配一个或多个字符。一个如 'data?.dat' 的模式可以找到下述文件:

data1.dat

data2.dat

datax.dat

dataN.dat
 

如果使用 * 字符代替 ? 字符,则将扩大找到的文件数量。'data*.dat' 可以匹配下述所有文件名:

data.dat

data1.dat

data2.dat

data12.dat

datax.dat

dataXYZ.dat

尽管这种搜索文件的方法肯定很有用,但也十分有限。? * 通配符的有限能力可以使你对正则表达式能做什么有一个概念,不过正则表达式的功能更强大,也更灵活。 

正则表达式的祖先可以一直上溯至对人类神经系统如何工作的早期研究。Warren McCulloch Walter Pitts 这两位神经生理学家研究出一种数学方式来描述这些神经网络。

1956 , 一位叫 Stephen Kleene 的美国数学家在 McCulloch Pitts 早期工作的基础上,发表了一篇标题为神经网事件的表示法的论文,引入了正则表达式的概念。正则表达式就是用来描述他称为正则集的代数的表达式,因此采用正则表达式这个术语。

随后,发现可以将这一工作应用于使用Ken Thompson 的计算搜索算法的一些早期研究,Ken ThompsonUnix 的主要发明人。正则表达式的第一个实用应用程序就是 Unix 中的qed 编辑器。其后,出现了Unix中著名的Grep工具程序,而本软件的命名也来源于此。剩下的就是众所周知的历史了:从那时起直至现在正则表达式都是基于文本的编辑器和搜索工具中的一个重要部分。现在,我们可以在几乎所有的基于UNIX系统的工具中找到正则表达式的身影,例如,vi编辑器,PerlPHP脚本语言,以及awksed shell程序等。此外,象JavaScript这种客户端的脚本语言也提供了对正则表达式的支持。由此可见,正则表达式已经超出了某种语言或某个系统的局限,成为人们广为接受的概念和功能。