18 12
发新话题
打印

[采集规则?] [原创]爬爬书库采集规则发布

英文标示:              3620
站名:                  爬爬书库
地址:                  http://www.3320.net
书籍介绍地址:          http://www.3320.net/blib/c/{read8bid}/
书籍标题标签:          隶书">||</B>
书籍作者标签:          笔名</FONT>:||</td>
书籍介绍标签:          style="line-height:6px">||</td>
封面标签:              <img src=/blib|| border=0||http://www.3320.net/blib
章节列表地址:          http://www.3320.net/blib/c/read/{read8bid}/index.html
卷标签:                style='PADDING-TOP:2px'>||</td>
匹配正则:              /<a class=zhjlnk href=javascript:gotozhj\((.*)\).*>(.*)<\/a><\/td>/isU
上面变量组中为章节标题的变量组序号:  read8b2cvar2
章节内容地址:          http://www.3320.net/blib/c/read/{read8bid}/{read8b2cvar1}.htm
匹配正则 - 取得章节内容二次地址用的变量:
章节内容标签:          line-height: 150%;'><p>||</span>
字符替换:              <p>#rd8#<br /><br />    
所采集网站的页面编码:  <gbk>

分类自己写。更多规则交流请访问:http://bbs.rqrw.com

TOP

谢谢楼主的无私分享!顶了!!!

TOP

补充一下    书籍的ID样式为  00/00

TOP

楼上的书籍ID样式干吗用啊?能不那姑娘详细说明下!

TOP

也就是    XX/XXXX

TOP

谢谢楼上的 还有个问题
爬爬书屋我可以采集了
但是书籍分类标签我自己这么写的:||奇幻魔法-1#传统武侠-2#军事政经-3#都市言情-4#恐怖灵异-6#网游小说-5#其它类别-1|||奇幻魔法-1#传统武侠-2#军事政经-3#都市言情-4#恐怖灵异-6#网游小说-5#其它类别-10

结果采集来的文章默认都放到第一类里面去了 为啥?

TOP

路过

TOP

这个规则能用吗,我的上面有,却采书号,可采不出来.

TOP

这个规则好像不能用呀。

TOP

稍微修改了一下就好了。

TOP

 18 12
发新话题