发新话题
打印

[采集规则?] [原创]易点文学站的规律 书很全

英文标识:  wx10
站名:  易点
地址:   http://www.wx10.cn
书籍介绍地址:   http://www.wx10.cn/modules/article/articleinfo.php?id={read8bid}
书籍标题标签:  <title>||-
书籍作者标签:   作者:||</li>
书籍介绍标签:  内容简介:||本书公告:
封面标签:    <img src="http://www.wx10.cn/files/article/image||"||http://www.wx10.cn/files/article/image  
书籍分类标签:    类  别:||</h2>|||武侠同人-2#奇幻魔法-1#仙侠异能-2#军事历史-3#都市生活-4#游戏竞技-5#校园言情-4#侦探恐怖-6
匹配正则 - 取得书籍介绍内容的变量    |www\.wx10\.cn/files/article/html/(\d+)/|isU
章节列表地址:http://www.wx10.cn/files/article/html/{read8b2bvar1}/{read8bid}/index.html
匹配正则 - 取得章节列表内容的变量组:|<a href="(\d+)\.html">(.+)</a>|isU
上面变量组中为章节标题的变量组序号:read8b2cvar2
章节内容地址  http://www.wx10.cn/files/article/html/{read8b2bvar1}/{read8bid}/{read8b2cvar1}.html



我采集了  全能采集  就一个毛病   作者那快采集完了 很乱~~   其他的都能正常使用~~~  这站有些书在其他站找不到 我原先用杰奇程序时候就采集他站的JP书~   
坏蛋内传(别名黑道公子)
坏蛋外传(别名狱锁狂龙)

还有些书是在新浪采集来的~~   
[attach]340[/attach]

TOP

作者标签有误。应为:

<li>作    者:|| </li>

书籍分类标签有误。应为:

玄幻魔法-1#武侠修真-2#都市言情-4#历史军事-3#侦探推理-6#网游动漫-5#科幻小说-8#恐怖灵异-6#耽美小说-4#同志小说-4#古典名著-3#纪实文学-4#



我知道分类标签很麻烦,但是你不愿意写可以不写。不应该写在上面误导大家。

匹配正则有误。那样写部分书很可能采集不到章节。最好应该为:
匹配正则 - 取得章节列表内容的变量组:|<td class="ccss"(.*)a href="(\d+)\.html">(.+)</a>|isU

TOP

我昨天晚上加了一晚上书~   哈哈~~  我主要是新手~   有些地方搞不懂  对不起哈~   现在还不困呢  

TOP

发新话题