21 123
发新话题
打印

[采集规则?] [讨论]关于两种格式的采集

一种是:<a href="123465.html" title="更新时间">标题</a>
一种是:<a href="123465.html" title="更新时间"><div class="xt">标题</div></a>

其实也就是飞库网啦~~

我在网上找,可是找不到~~

我使用过:<a href="(\d+)\.html" title=".*">[^<>]+(.+)<\/a-z> 这样的方式,但是不行。。。

TOP

因为它是换行的``如果不换行怎么写都可以

TOP

<td width='25%'>
<a href="2380066.html" title="更新时间:2007-3-16 10:45:00
更新字数:2532"><div  class="xt">第二章 突如其来的责任</div></a></td>

TOP

。。。。。。。。。。。。。。。。

TOP

就是这种换行的写不了``如果是在一行的就简单了。

TOP

我能想到的解决办法就是不采章节名```` 用更新时间做章节名。暂时只能这样了。或者等官方答复
<a href="2380066.html" title="更新时间:2007-3-16 10:45:00
|<a href="(\d+)\.html" title="(.*):00|isU

TOP

不是的,正则会自动换行的,比如
<a href="2380066.html" title="更新时间:2007-3-16 10:45:00
fjsdklfjlskd">fjksdljflskd</a>
我写的规则是
<a href="([\d]+)\.html" title=".*">(.*)<\/a>
是能够采的
你可以测试下我刚做的那个规则,是可以采的,只是不知道怎么解决两种格式的问题

TOP

一种是:<a href="123465.html" title="更新时间">标题</a>
一种是:<a href="123465.html" title="更新时间"><div class="xt">标题</div></a>

|<a href="([\d]+)\.html" title=".*">(.*)<\/a>|isU

就这样写,最多就是标题前多出个<div class="xt">,标题后多个</div>,但是章节名称会过滤HTML代码,所以被过滤掉。我就用的这个规则,确实可用。
采集的地址是第二种。第二种都能采集,那第一种不用试都可以。

TOP

我试过了,我本地测试,完全没有问题,你可以下载我写的那个~
但是只支持一种格式的

TOP

TOP

 21 123
发新话题