16 12
发新话题
打印

[采集规则?] 百草堂的采集规则

英文标示: 100hut

站名: 百草堂

地址: http://www.100hut.com/

书籍介绍地址: http://www.100hut.com/Book/{read8bid}.aspx

书籍标题标签: <span class="booktitle">||</span>

书籍作者标签: 作者:||</a>

书籍介绍标签: <span class="comment">  ||  <BR>

匹配正则 - 取得书籍介绍内容的变量: /<a href="http:\/\/www\.100hut\.com\/Html\/Book\/([\d]+)\/([\d]+)\/index\.html">/isU

章节列表地址: http://www.100hut.com/Html/book/{read8b2bvar1}/{read8bid}/List.html

卷标签: <span class="style3">||</span>

匹配正则 - 取得章节列表内容的变量组: /<a href="([\d]+)\.html"(.*)<\/a>/isU

上面变量组中为章节标题的变量组序号: read8b2cvar2

章节内容地址: http://www.100hut.com/Html/book/{read8b2bvar1}/{read8bid}/{read8b2bvar1}.html

章节内容标签: <DIV id=booktext||</DIV>

这个网站貌似八错 我花了一宿做的采集规则 但是不知为什么采集不了

说是  解析书籍章节错误, 采集规则出错, 或者本书暂无章节

调试信息:

bookaddress:http://www.100hut.com/Html/book//7447/List.html

哪位大哥帮忙指点一下

TOP

因为章节是
<a href="539087.html" title="更新时间:2006-10-2 15:14:00
更新字数:60">第二十六章 反击越军</a></div></td>
两行的,而正则表达式遇到回车会中止,所以采集错误,我也是遇到这个问题,不知道怎么解决!

TOP

确事不行,晕了
好像章节动态文件的也不行,研究了好久,只有一些静态站能采

TOP

我也搞不来。

TOP

这个问题还没有解决嘛?帮顶!

TOP

这个站都打不开,想检查也不行了

TOP

TOP

TOP

匹配正则 - 取得书籍介绍内容的变量
不要 /<a href="http:\/....直接要地址

其它你在检查一下标记是不是唯一的.

如果是..就应该没有什么问题了

TOP

这站不是和吾爱和86中文一样的正则吗?

都不会?

TOP

 16 12
发新话题