1.什么是正則表達式:
正則表達式(regular expressions) 是一種描述字符串集的方法,它是以字符串集中各種字符串的公有特征為依據的。
?
正則表達式可以用于搜索、編輯或者操作文本和數據。許多程序設計語言都支持利用正則表達式進行字符串操作。
?
正則表達式這個概念最初是由Unix中工具軟件(例如sed和grep)普及開來的。正則表達式通常縮寫成"regex"。
?
2.java.util.regex包是如何描述正則表達式的?
java.util.regex 包主要由三個類所組成:Parten、Matcher和PatternSyntaxException。
Pattern 對象表示一個已編譯的正則表達式。Patter類沒有提供公有的構造方法。要構造一個模型,首先必須調用公共的靜態compile方法,它將返回一個Pattern對象。這個方法接受正則表達式作為第一個參數。
Matcher 是一個靠著輸入的字符串來解析這個模式和完成匹配操作的對象。與Pattern相似,Matcher也沒有定義公共的構造方法,需要通過調用Pattern對象的matcher方法來獲得一個Matcher對象。
PatternSyntaxException 對象是一個未檢查異常,指示了正則表達式中的一個語法錯誤。
?
?
測試正則表達式工具,java版
在后面的實例中,可通過該工具來驗證
?
?
package com.fortune.test; import java.io.Console; import java.util.Scanner; import java.util.regex.Matcher; import java.util.regex.Pattern; /** * Created with IntelliJ IDEA. * User: Alan * Date: 12-5-28 * Time: 下午1:46 */ public class RegexTestHarness { public static void main(String[] args) { Scanner scanner = new Scanner(System.in); while (true) { System.out.printf("%nEnter your regex: "); Pattern pattern = Pattern.compile(scanner.nextLine()); System.out.printf("Enter input string to search: "); Matcher matcher = pattern.matcher(scanner.nextLine()); boolean found = false; while (matcher.find()) { System.out.printf( "I found the text \"%s\" starting at index %d and ending at index %d.%n", matcher.group(), matcher.start(), matcher.end() ); found = true; } if (!found) { System.out.printf("No match found.%n"); } } } }
?
3.字符串驗證
在大多數的情況下,API所支持模式匹配的基本形式是匹配字符串,如果正則表達式是foo,輸入的字符串也是foo,這個匹配將會是成功的。因為這兩個字符串是相同的。試著用測試工具來測試一下:
?
Enter your regex: foo Enter input string to search: foo I found the text "foo" starting at index 0 and ending at index 3.?
?
?
結果確實是成功的。注意當輸入的字符串是3個字符長度的時候,開始的索引時0,結束的索引是3。這個是約定俗成的,范圍包括開始的索引,不包括結束的索引,如下圖所示:
字符串中每一個字符位于其自身的單元格(cell)中,在每一單元格之間有索引指示位。字符串"foo"始于索引0處,止于索引3處,即使是這些字符它們自己僅占據了0、1和2號單元格。
就子序列匹配而言,你會注意到一些重疊,下一次匹配開始索引與前一次匹配的結果索引是相同的:
?
?
Enter your regex: foo Enter input string to search: foofoofoo I found the text "foo" starting at index 0 and ending at index 3. I found the text "foo" starting at index 3 and ending at index 6. I found the text "foo" starting at index 6 and ending at index 9.
?
4.元字符驗證?
API也支持許多可以影響模式匹配的特殊字符。把正則表達式改成 cat. ?, 并輸入字符串"cats",輸出結果是下所示:
?
Enter your regex: cat. Enter input string to search: cats I found the text "cats" starting at index 0 and ending at index 4.?
?
?
雖然在輸入的字符串中沒有點(.),但這個匹配仍然是成功的。這是由于點(.)是一個元字符(metacharacters)(被這個匹配翻譯成了具有特殊意義的字符了)。這個例子為什么能匹配在于, 元字符.指的是"任意字符".
API所支持的元字符有:( [ { \ ^ - $ | } ] ) ? * + .
注意:在學習過更多的如何構建正則表達式后,你會碰見這些情況:上面的這些特殊字符不應該被處理為元字符。然而也能夠使用這一清單來檢查一個特殊的字符是否會被認為是元字符。例如,字符!、@和#絕不會有特殊意義。
有兩種方式可以強制將元字符處理成為普通字符:
1.在元字符前加上反斜線(\);
2.把它放在\Q (引用開始) 和 \E (引用結束)之間。在使用這種技術時,\Q 和\E能被放于表達式中的任何位置
?
5.字符類匹配
如果你曾看過Pattern類的說明,會看到一些構建正則表達式的概述。在這一節中你會發現一下的一些表達式:
?
字符類
[abc]
|
a, b 或 c(簡單類) |
[^abc]
|
除 a, b 或 c 之外的任意字符(取反) |
[a-zA-Z]
|
a 到 z,或 A 到 Z,包括(范圍) |
[a-d[m-p]]
|
a 到 d,或 m 到 p:
[a-dm-p]
(并集)
|
[a-z&&[def]]
|
d,e 或 f(交集) |
[a-z&&[^bc]]
|
除 b 和 c 之外的 a 到 z 字符:
[ad-z]
(差集)
|
[a-z&&[^m-p]]
|
a 到 z,并且不包括 m 到 p:
[a-lq-z]
(差集)
|
?
左邊列指定正則表達式構造,右邊列描述每個構造的匹配的條件
注意:"字符類(character class)"這個詞中的"類(class)"指的并不是一個.class文件。在正則表達式的語義中,字符類是指放在方框號里的字符集,指定了一些字符中的一個能被給定的字符串所匹配。
?
5.1 簡單類(Simple Classes)
字符類最基本的格式是把一些字符放到一個方框號內。例如:正則表達式[bcr]at 會匹配"bat"、"cat"或者"rat",這是由于其定義了一個字符類(接受"b","c"或"r"中的一個字符)作為它的首字符。
?
Enter your regex: [bcr]at Enter input string to search: bat I found the text "bat" starting at index 0 and ending at index 3. Enter your regex: [bcr]at Enter input string to search: cat I found the text "cat" starting at index 0 and ending at index 3. Enter your regex: [bcr]at Enter input string to search: rat I found the text "rat" starting at index 0 and ending at index 3.?
?
?
在上面的例子中,在第一個字符匹配字符類中所定義字符類中的一個時,整個匹配就是成功的。
5.1.1 否定匹配
要匹配除那些列表之外所有的字符時,可以在字符類的開始處加上^元字符,這種就被稱為否定(negation).
?
Enter your regex: [^bcr]at Enter input string to search: bat No match found. Enter your regex: [^bcr]at Enter input string to search: cat No match found. Enter your regex: [^bcr]at Enter input string to search: hat I found the text "hat" starting at index 0 and ending at index 3.?
?
?
在輸入字符串中的第一個字符不包括在字符類中所定義字符中的一個時,匹配是成功的。
?
5.1.2 范圍
有時會想要定義一個包含范圍的字符類,諸如,"a到h"的字母或者是"1"到"5"的數字。指定一個范圍,只要在匹配的首字符和末字符間插入-元字符,比如:[1-5] 或者是 [a-h] 。也可以在類里每個的邊上放置不同的范圍來提高匹配的可能性,例如:[a-zA-Z]將會匹配a到z(小寫字母)或者A到Z(大寫字母)中任何一個字符。
下面是一些范圍和否定的例子:
?
Enter your regex: [a-c] Enter input string to search: a I found the text "a" starting at index 0 and ending at index 1. Enter your regex: [a-c] Enter input string to search: b I found the text "b" starting at index 0 and ending at index 1. Enter your regex: [a-c] Enter input string to search: c I found the text "c" starting at index 0 and ending at index 1. Enter your regex: [a-c] Enter input string to search: d No match found. Enter your regex: foo[1-5] Enter input string to search: foo1 I found the text "foo1" starting at index 0 and ending at index 4. Enter your regex: foo[1-5] Enter input string to search: foo5 I found the text "foo5" starting at index 0 and ending at index 4. Enter your regex: foo[1-5] Enter input string to search: foo6 No match found. Enter your regex: foo[^1-5] Enter input string to search: foo6 I found the text "foo6" starting at index 0 and ending at index 4.?
?
?
5.1.3 并集
可以使用并集(union)來建一個由兩個或兩個以上字符類所組成的單字符類。構建一個并集,只要在一個字符類的邊上嵌套另外一個,比如:[0-4[6-8]],這種奇特方式構建的并集字符類,可以匹配0,1,2,3,4,6,7,8這幾個數字。
?
Enter your regex: [0-4[6-8]] Enter input string to search: 0 I found the text "0" starting at index 0 and ending at index 1. Enter your regex: [0-4[6-8]] Enter input string to search: 5 No match found. Enter your regex: [0-4[6-8]] Enter input string to search: 6 I found the text "6" starting at index 0 and ending at index 1. Enter your regex: [0-4[6-8]] Enter input string to search: 8 I found the text "8" starting at index 0 and ending at index 1. Enter your regex: [0-4[6-8]] Enter input string to search: 9 No match found.?
?
5.1.4 交集
建一個僅僅匹配自身嵌套類中公共部分字符的字符類時,可以像[0-9&&[345]]中那樣使用&&.這種方式構建出來的交集(intersection)簡單字符類,僅僅以匹配兩個字符類的3,4,5共有部分。
?
?
Enter your regex: [0-9&&[345]] Enter input string to search: 3 I found the text "3" starting at index 0 and ending at index 1. Enter your regex: [0-9&&[345]] Enter input string to search: 4 I found the text "4" starting at index 0 and ending at index 1. Enter your regex: [0-9&&[345]] Enter input string to search: 5 I found the text "5" starting at index 0 and ending at index 1. Enter your regex: [0-9&&[345]] Enter input string to search: 2 No match found. Enter your regex: [0-9&&[345]] Enter input string to search: 6 No match found.?
?
?
下面演示兩個范圍交集的例子:
?
Enter your regex: [2-8&&[4-6]] Enter input string to search: 3 I found the text "3" starting at index 0 and ending at index 1. Enter your regex: [2-8&&[4-6]] Enter input string to search: 4 I found the text "4" starting at index 0 and ending at index 1. Enter your regex: [2-8&&[4-6]] Enter input string to search: 5 I found the text "5" starting at index 0 and ending at index 1. Enter your regex: [2-8&&[4-6]] Enter input string to search: 6 I found the text "6" starting at index 0 and ending at index 1. Enter your regex: [2-8&&[4-6]] Enter input string to search: 7 No match found.?
?
?
5.1.5 差集
最后,可以使用差集(subtraction)來否定一個或多個嵌套的字符類,比如:[0-9&&[^345]], 這個是構建一個匹配除3,4,5之外所有0-9間數字的簡單字符類。
?
Enter your regex: [0-9&&[^345]] Enter input string to search: 2 I found the text "2" starting at index 0 and ending at index 1. Enter your regex: [0-9&&[^345]] Enter input string to search: 3 No match found. Enter your regex: [0-9&&[^345]] Enter input string to search: 4 No match found. Enter your regex: [0-9&&[^345]] Enter input string to search: 5 No match found. Enter your regex: [0-9&&[^345]] Enter input string to search: 6 I found the text "6" starting at index 0 and ending at index 1. Enter your regex: [0-9&&[^345]] Enter input string to search: 9 I found the text "9" starting at index 0 and ending at index 1.?
?
到此為止,已經涵蓋了如何建立字符類的部分。
?
6.預定義字符類
?
Pattern的API包有許多有用的預定義字符類(predefined character classes),提供了常用正則表達式的簡寫形式
.
|
任何字符(匹配或者不匹配行結束符) |
\d
|
數字字符:
[0-9]
|
\D
|
非數字字符:
[^0-9]
|
\s
|
空白字符:
[\t\n\x0B\f\r]
|
\S
|
非空白字符:
[^\s]
|
\w
|
單詞字符:
[a-zA-Z_0-9]
|
\W
|
非單詞字符:
[^\w]
|
?
?
上表中,左列是構造右邊字符類的簡寫形式。例如:\d指的是數字范圍(0-9),\w指的是單詞字符(任何大小寫、下劃線或者是數字)。無論何時都有可能使用預定義字符類,它可以使代碼更易閱讀,更易從難看的字符類中排除錯誤。
?
以反斜線(\) 開始的構造稱為構造(escaped constructs)。回顧一下在字符串中一節中的轉義構造,在那里我們提及了使用反斜線,以及用于引用的\Q和\E。在字符串中使用轉義構造,必須在一個反斜線前在增加一個反斜線用于字符串的編譯,例如:
?
?
private final String REGEX="\\d";?
這個例子中\d是正則表達式,另外的那個反斜線是用于代碼編譯所必須的。但是測試工具讀取的表達式,是直接從控制臺中輸入的,因此不需要那個多出來的反斜線。
?
下面的例子說明了預定義字符類的用法:
?
?
Enter your regex: . Enter input string to search: @ I found the text "@" starting at index 0 and ending at index 1. Enter your regex: . Enter input string to search: 1 I found the text "1" starting at index 0 and ending at index 1. Enter your regex: . Enter input string to search: a I found the text "a" starting at index 0 and ending at index 1. Enter your regex: \d Enter input string to search: 1 I found the text "1" starting at index 0 and ending at index 1. Enter your regex: \d Enter input string to search: a No match found. Enter your regex: \D Enter input string to search: 1 No match found. Enter your regex: \D Enter input string to search: a I found the text "a" starting at index 0 and ending at index 1. Enter your regex: \s Enter input string to search: No match found. Enter your regex: \s Enter input string to search: a No match found. Enter your regex: \s Enter input string to search: " " I found the text " " starting at index 1 and ending at index 2. Enter your regex: \S Enter input string to search: a I found the text "a" starting at index 0 and ending at index 1. Enter your regex: \w Enter input string to search: a I found the text "a" starting at index 0 and ending at index 1. Enter your regex: \w Enter input string to search: ! No match found. Enter your regex: \W Enter input string to search: ! I found the text "!" starting at index 0 and ending at index 1.
?
在開始的三個例子中,正則表達式是最簡單的,.("點"元字符)表示"任意字符",因此,在所有的三個例子(隨意選取了"@"字符,數字和字母)中都是匹配成功的。在接下來的例子中,都使用了預定義的字符類表格中的單個正則表達式構造。你應該可以根據這張表指出前面每個匹配的邏輯:
?
\d 匹配數字字符
\s 匹配空白字符
\w 匹配單詞字符
?
也可以使用意思正好相反的大寫字母:
\D 匹配非數字字符
\S 匹配非空白字符
\W 匹配非單詞字符
更多文章、技術交流、商務合作、聯系博主
微信掃碼或搜索:z360901061

微信掃一掃加我為好友
QQ號聯系: 360901061
您的支持是博主寫作最大的動力,如果您喜歡我的文章,感覺我的文章對您有幫助,請用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧,狠狠點擊下面給點支持吧,站長非常感激您!手機微信長按不能支付解決辦法:請將微信支付二維碼保存到相冊,切換到微信,然后點擊微信右上角掃一掃功能,選擇支付二維碼完成支付。
【本文對您有幫助就好】元
