11 12
发新话题
打印

求助,关于采集正则表达式

<a href="/book/971/130911.html">第五十二章 初临战阵</a>

请问问上面的章节列表代码 正则里 应该怎么写的 正则表达式 才能采集呢? 谢谢
<a href="\/book\/[\d]*\/([\d]+).html">(.*)</a>/isU
这个错在哪了???

TOP

能自己动手写难能可贵。

错在两个地方,1、.应该进行转义。2、你最后一个/忘记转义。
正确的写法:
<a href="\/book\/[\d]*\/([\d]+)\.html">(.*)<\/a>/isU

TOP

谢谢,不过,很奇怪,用了您的,还是无法采集.也不知道是哪里出错了..
下面是我的采集规则,老大帮忙看看哈

章节列表地址:
书籍的章节具体列表的地址。http://www.daxiabook.com/book/{read8bid}/index.html
卷标签:
用“||”分开前后标签。无则留空。<td height="30" colspan="3"><div align="center">||</div></td>

章节列表正则:
获得章节列表中的章节标题和章节编号的正则。<a href="\/book\/[\d]*\/([\d]+)\.html">(.*)<\/a>/isU
其中\\1表示章节编号,\\2表示章节标题。

章节内容地址:
章节具体内容阅读的地址。用“read8sid”表示特殊变量。http://www.daxiabook.com/book/{read8bid}/{read8cid}.html

章节内容标签:
用“||”分开前后标签。<td height="30"><div align="center"><span class="style5">||<BR><BR>   </td></span></div></td>

TOP

检查一下你的章节内容是不是后面标签太多了,换行你可不能带进去,所以标签越少越好。

TOP

OK了,,呵呵,开始懂了,谢谢书生老大的耐心教导哈.
嘎嘎....

TOP

再问一个问题....
屏蔽规则里,可不可以设置多个关键字
怎么设置....
|AAAAAAA||BBBBBBB|
这样么?这样,好像无效哦....

TOP

你的采集是否正常?
屏蔽里面可以多个字。

TOP

TOP

谢谢关心,采集正常了....
屏蔽里面可以多个字。
具体表达怎么表达呢?
我按|AAAAAAA||BBBBBBB|的格式设置
只屏蔽第一个词语AAAAA,第二个BBBBBBB就无效不屏蔽了,

TOP

呵呵,换个号来
嘎嘎....

TOP

 11 12
发新话题