一种是:<a href="123465.html" title="更新时间">标题</a>
一种是:<a href="123465.html" title="更新时间"><div class="xt">标题</div></a>
|<a href="([\d]+)\.html" title=".*">(.*)<\/a>|isU
就这样写,最多就是标题前多出个<div class="xt">,标题后多个</div>,但是章节名称会过滤HTML代码,所以被过滤掉。我就用的这个规则,确实可用。
我现在采集的地址是第二种。第二种都能采集,那第一种不用试都可以。
看来我们合作解决了这个难题。
