17 12
发新话题
打印

[采集规则?] 采集规则~集合贴

英文标示: yunxiaoge

站名: 云霄阁书库

地址: http://www.yunxiaoge.com

书籍介绍地址: http://www.yunxiaoge.com/modules/article/articleinfo.php?id={read8bid}

书籍标题标签: <strong>||</strong>

书籍作者标签: 作    者:||</td>

书籍介绍标签: 内容简介:||本书公告:

匹配正则 - 取得书籍介绍内容的变量: /<a href="http:\/\/book\.yunxiaoge\.com\/files\/article\/html\/([\d]+)\/([\d]+)\/index\.html">/isU

章节列表地址: http://book.yunxiaoge.com/files/article/html/{read8b2bvar1}/{read8bid}/index.html

卷标签: <td colspan="4" class="vcss">||</td>

匹配正则 - 取得章节列表内容的变量组: /<a href="([\d]+)\.html">(.*)<\/a>/isU

上面变量组中为章节标题的变量组序号: read8b2cvar2

章节内容地址: http://book.yunxiaoge.com/files/article/html/{read8b2bvar1}/{read8b2cvar1}.html

章节内容标签: <div id="content">||</div>





[ 墨月书院 ]  http://www.7onc.com

TOP

英文标示:                           uushop
站名:                               我不知道
地址:                               http://www.uushop.net/
书籍介绍地址:                       http://www.uushop.net/files/article/info/{read8bid}.htm
书籍标题标签:                       <font size="4">||</font>
书籍作者标签:                       者:||</td>
书籍介绍标签:                       内容简介:</span>||<span
封面标签:                           src="/files||"||http://www.uushop.net/files  
章节列表地址:            http://www.uushop.net/files/article/html/{read8bid}/index.html
卷标签:                  class="vcss">||</td>
匹配正则 - 取得章节列表内容的变量组:   /<a href="([\d]+)\.html">(.*)<\/a>/isU
上面变量组中为章节标题的变量组序号:   {read8b2cvar2}
章节内容地址:      http://www.uushop.net/files/article/html/{read8bid}/{read8b2cvar1}.html
章节内容标签:      <div id="content">||</div>
字符替换:          rd8_/<br \/>\r\n<br \/>/isU#rd8#<br />
所采集网站的页面编码:        gbk



[ 墨月书院 ]  http://www.7onc.com


TOP

网站标识   2100book

网站名称   世纪文学

网站地址   http://www.2100book.com

文章子序号运算方式   floor(<{articleid}>/1000)

文章信息页面地址   http://www.2100book.com/modules/article/articleinfo.php?id=<{articleid}>

文章标题采集规则   <TITLE>!!!!--世纪文学</TITLE>

作者采集规则   作    者:!!!!</td>

文章类型采集规则   类    别:!!!!</td>

文章类型对应关系   言情全本=>3||武侠小说=>2||科幻小说=>7||仙侠奇侠=>2||玄幻小说=>1||修真系列=>8||网游动漫=>6||言情爱情=>3||现代文学=>10||恐怖灵异=>8||纪实传记=>10||魔幻小说=>1||军事历=>4||校园乱弹=>9||畅销小说=>10||生活娱乐=>3||影视图书=>10||诗词散文=>10||财经职场=>10||其他文学=>10||default=>10

内容简介采集规则  target="_blank">用“书速递”搜索本书更多更新</a><br />****<td colspan="8"><div align="center">  

封面图片采集规则  <td width="20%" align="center" valign="top"><a href="!!!!" target="_blank">

过滤的封面图片   nobookpic.gif

文章目录页面地址  http://read.2100book.com/files/article/html/<{subarticleid}>/<{articleid}>/index.html

分卷名称采集规则   <td colspan="1" class="vcss">!!!!</td>


章节名称采集规则    .html">!!!!</a>

章节序号采集规则     <a href="!!!!.html"


章节内容页面地址    http://read.2100book.com/files/article/html/<{subarticleid}>/<{articleid}>/<{chapterid}>.html

章节内容采集规则   <div id="content">****<hr />



[ 墨月书院 ]  http://www.7onc.com



TOP

批量采集 规则代码!!!

采集网站   世纪文学

采集规则名称  最近更新

采集页面地址   http://www.2100book.com/modules/ ... lastupdate&page=<{pageid}>

文章序号采集规则  <td class="odd"><a href="http://www.2100book.com/files/article/info/$/$$$$.htm">

下一页的页码采集规则  ++

起始页页码  1

最多采集页数  10

TOP

英文标示:                           xiaoshuojie
站名:                               小说界
地址:                               http://www.xiaoshuojie.com/
书籍介绍地址:                       http://www.xiaoshuojie.com/files/article/info/{read8bid}.htm
书籍标题标签:                       <font size="4">||</font>
书籍作者标签:                       者:||</td>
书籍介绍标签:                       内容简介:</span>||<span
封面标签:                           src="/files||"||http://www.xiaoshuojie.com/files  
章节列表地址:            http://www.xiaoshuojie.com/files/article/html/{read8bid}/index.html
卷标签:                  class="vcss">||</td>
匹配正则 - 取得章节列表内容的变量组:   /<a href="([\d]+)\.html">(.*)<\/a>/isU
上面变量组中为章节标题的变量组序号:   {read8b2cvar2}
章节内容地址:      http://www.xiaoshuojie.com/files/article/html/{read8bid}/{read8b2cvar1}.html
章节内容标签:      <div id="content">||</div>
字符替换:          rd8_/<br \/>\r\n<br \/>/isU#rd8#<br />
所采集网站的页面编码:        gbk

注:分类标签自己写;
      字符替换的意思是将原址默认的两行行距改为一行,我不太喜欢太宽的行距,如果希望保持原址的两行行距,字符替换里留空即可。



[ 墨月书院 ]  http://www.7onc.com


TOP

英文标示:              3620
站名:                  爬爬书库
地址:                  http://www.3320.net
书籍介绍地址:          http://www.3320.net/blib/c/{read8bid}/
书籍标题标签:          隶书">||</B>
书籍作者标签:          笔名</FONT>:||</td>
书籍介绍标签:          style="line-height:6px">||</td>
封面标签:              <img src=/blib|| border=0||http://www.3320.net/blib
章节列表地址:          http://www.3320.net/blib/c/read/{read8bid}/index.html
卷标签:                style='PADDING-TOP:2px'>||</td>
匹配正则:              /<a class=zhjlnk href=javascript:gotozhj\((.*)\).*>(.*)<\/a><\/td>/isU
上面变量组中为章节标题的变量组序号:  read8b2cvar2
章节内容地址:          http://www.3320.net/blib/c/read/{read8bid}/{read8b2cvar1}.htm
匹配正则 - 取得章节内容二次地址用的变量:
章节内容标签:          line-height: 150%;'><p>||</span>
字符替换:              <p>#rd8#<br /><br />    
所采集网站的页面编码:  <gbk>



[ 墨月书院 ]  http://www.7onc.com

TOP

网站标识 hjsm_net

网站名称  幻剑书盟

网站地址  http://hjsm.tom.com

文章信息页面地址  http://hjsm.tom.com/book.php?book_id=<{articleid}>

文章标题采集规则  <td width="65%" class="text_R_12_1">《!!!!》</td>

作者采集规则  <td width="35%"  class="text_R_12_1">作者:!!!!</td>

文章类型采集规则  <td bgcolor="#FFFFFF" class="text_b_12_1">分  类 !!!!</td>

文章类型对应关系  奇幻=>1||灵异=>8||历史=>4||游戏=>6||科幻=>7||女性=>3||都市=>3||军事=>4||default=>10

内容简介采集规则  <td valign="top" class="text_b_12_1">****</td>!<td width="10"></td>!</tr>!</table>!<table width="100%"  border="0" cellpadding="0" cellspacing="0" bgcolor="EFEFFF">

封面图片采集规则  <td><img src="~~~~" width="100" height="150">

过滤的封面图片  http://pic.hjsm.tom.com/cover/cover.jpg

文章目录页面地址  http://hjsm.tom.com/?mod=book&act=volume&book_id=<{articleid}>

分卷名称采集规则  <td align="center" bgcolor="#D3F0FE" class="text_b_12_1"><strong>!!!!</strong>

章节名称采集规则  <td width="~" style="padding-left:10px">!<a href="~" title="~">!!!!</a>

章节序号采集规则  <td width="~" style="padding-left:10px">!<a href="http://hjsm.tom.com/chapter.php?book_id=$&chapter_id=$$$$" title="~">

章节内容页面地址  http://hjsm.tom.com/chapter.php?book_id=<{articleid}>&chapter_id=<{chapterid}>

章节内容采集规则  <td colspan="2" class="text_b_14_1">****</td>!</tr>!</table>!<table width="50%"  border="0" align="center">


[ 墨月书院 ]  http://www.7onc.com

TOP

大家把。。规则集合起来呀。。到时候找规则就容易找一点

TOP

支持

TOP

我就拣现成的了哈!~~
希望都能好用

TOP

 17 12
发新话题