发新话题
打印

[采集规则?] [求助]大家看下我的采集规则 哪里错了呢?

我要采集这个
http://www.2552.com.cn/Html/Book/67/11249/List.shtml
规则
章节列表地址 http://www.2552.com.cn/Html/Book/{read8b2bvar1}/{read8bid}/list.shtml
匹配正则 - 取得书籍介绍内容的变量 |<a href="Book([\d]+)_([\d]+)list\.shtml">|isU
可是一采集就出现
解析书籍章节错误,采集规则出错,或者本书暂无章节
调试信息: bookaddress:http://www.2552.com.cn/Html/Book//11249/list.html

大家帮忙看看 为什么会这样呢  11249前面的 67为什么就采集不过来地址呢?

TOP

引用:
|<a href="\/Html\/Book\/([\d]+)\/([\d]+)\/List\.shtml">|isU

TOP

谢谢版主 可是还是采集不到
解析书籍章节错误,采集规则出错,或者本书暂无章节
调试信息: bookaddress:http://www.2552.com.cn/Html/Book//122/list.shtml

TOP

匹配正则 - 取得书籍介绍内容的变量 |<a href="\/Html\/Book\/([\d]+)\/([\d]+)\/list\.shtml">|isU  
章节列表地址 http://www.2552.com.cn/Html/Book/{read8b2bvar1}/{read8bid}/list.shtml
卷标签 <span class="style6">|| 
匹配正则 - 取得章节列表内容的变量组 |<div align="left"><a href="([\d]+)\.html".*>(.*)<\/a><\/div>|isU
上面变量组中为章节标题的变量组序号 read8b2cvar2
章节内容地址 http://www.2552.com.cn/Html/Book/{read8b2bvar1}/{read8bid}/{read8b2cvar1}.html
匹配正则 - 取得章节内容二次地址用的变量 
章节内容标签 align="left">||<script

都打出来了 帮下看看 哪里错了呢

TOP

把你的采集规则直接导出贴上来我帮你看看

TOP

2552的```

涉及到商业问题。此文删除

TOP

嘿嘿,支持,我发现我也变懒了

TOP

  我2552规律自己写完了  采集文章一点事都没有  最大一个毛病是 图采集不过来

TOP

发新话题