首先提一下常用的正则表达式的意思
. 任意字符
* 0个及0个以上
+ 1个以上
^ 一行开始
$ 一行结束
[] 可选字符
[a-z] 包含所有字母
[^abc] 不包含字母a,字母b,字母c
(abc) 匹配abc字符串
对于字段html代码,如
<P style="text-align: right;">abc<span style="font-size: 16px;">ab</span></p><p><span style="font-size: 16px;">--转自</span><img src="http://bbs.landingbj.com/images/google.jpg" alt="北京联动北方科技有限公司"><br></p><p>测试</p>
如果我要匹配所有p标签,我可以使用:<p[^>]*>
匹配<p[^>]*>的结果:
<P style="text-align: right;">
<p>
<p>
如果我要匹配所有p标签的内容,可以使用 <p.*?</p> ,说明一下.* 是指匹配任意长度的任意字符,加上? 组成的.*? 就是懒惰模式,只匹配满足条件的最短字符串
匹配<p.*?</p>的结果:
<P style="text-align: right;">abc<span style="font-size: 16px;">ab</span></p>
<p><span style="font-size: 16px;">--转自</span><img src="http://bbs.landingbj.com/images/google.jpg" alt="北京联动北方科技有限公司"><br></p>
<p>测试</p>
而 <p.*</p> 则就是贪婪模式,会匹配最长的满足条件的字符串
匹配<p.*</p>的结果:
<P style="text-align: right;">abc<span style="font-size: 16px;">ab</span></p><p><span style="font-size: 16px;">--转自</span><img src="http://bbs.landingbj.com/images/google.jpg" alt="北京联动北方科技有限公司"><br></p><p>测试</p>
若是我想要匹配包含 "--转自" 的那一个段落的数据,可以使用<p((?!</p>).)*--转自.*?</p>
说明一下,该正则表达式的含义是匹配一个以<p开始 不包含字符串</p> 包含 关键字符"--转自" 并且以</p> 结尾的字符串。
不包含字符串</p> 可以写成 ((?!</p>)
匹配<p((?!</p>).)*--转自.*?</p>的结果:
<p><span style="font-size: 16px;">--转自</span><img src="http://bbs.landingbj.com/images/google.jpg" alt="北京联动北方科技有限公司"><br></p>
用Java代码测试
package cn.js.fan.security;
import java.util.regex.Matcher;
import java.util.regex.Pattern;
public class Test
{
public String notices;
public static void main(String[] args)
{
String content = "<P style=\"text-align: right;\">abc<span style=\"font-size: 16px;\">ab</span></p><p><span style=\"font-size: 16px;\">--转自</span><img src=\"http://bbs.landingbj.com/images/google.jpg\" alt=\"北京联动北方科技有限公司\"><br></p><p>测试</p>";
System.out.println(content);
String[] regexs={"<p[^>]*>","<p.*</p>","<p.*?</p>","<p((?!</p>).)*--转自.*?</p>"};
for(String regex:regexs)
{
Matcher m=Pattern.compile(regex,Pattern.DOTALL|Pattern.CASE_INSENSITIVE).matcher(content);
System.out.println("匹配"+ regex +"的结果:");
while(m.find()){
String data=m.group();
System.out.println(data);
}
System.out.println();
}
}
}
关于不包含字符串的参考:正则表达式里字符串”不包含”匹配技巧