- 熟悉本规则后可制作任意网站的阅读采集。
- 在可以使用变量的选项中,点击左侧对应变量名即可自动填入光标处。
- 更多正则和站点恢复请点此弹出查看官方论坛二次开发版。
采集规则编辑
站点标识*:
当前站点规则在采集中的唯一英文名称。只能使用字母和数字。
目标站名称*:
用作当前站点在采集中的显示,可以使用中文。
目标站地址*:
当前站点的网站地址。
书籍信息页面地址*:
同时含有一本书标题/作者/介绍/封面和特殊变量的单本书籍介绍地址。
使用代替书籍编号。
书籍名称起始与结束标记*:
两标记之间为书籍名称,起始标记应唯一或在文档中首次出现。
书籍作者起始与结束标记*:
同上。
书籍一级分类起始与结束标记:
同上。
书籍一级分类对应关系:
若目标站分类名称与本站分类名称不同,可在此设置对应关系,例:本站“言情”类 ID 为 1,目标站分类名为“都市言情”。
[+]
书籍二级分类起始与结束标记:
同上。
书籍二级分类对应关系:
同上。
[+]
书籍介绍起始与结束标记*:
同上。可留空。
封面起始与结束标记*:
同上。可留空。
封面前导路径:
上一项取得的结果将附加在本项之后共同构成封面图片地址。可留空。
匹配正则 - 书籍信息页面通用变量获得:
选填。可匹配五个变量。在下文地址中用 {read8g1v1} 到 {read8g1v5} 来替换。
章节列表页面地址*:
书籍的章节具体列表的地址。
可用变量
。
分卷起始与结束标记:
同上。可留空。
匹配正则 - 取得章节列表内容的变量组*:
必填。可匹配最多五个变量组。用于获得章节阅读地址用的变量。在下文地址中用 {read8cv1} 到 {read8cv5} 来替换。
章节标题变量名*:
在上一项所取得的变量中,哪个变量是章节标题。
章节阅读页面地址*:
书籍的章节阅读页面的地址。
可用变量
。
某些时候,该页面并不存在章节内容,但是需要根据此页面中的部分信息得到章节内容的地址,请继续填写以下两项。
匹配正则 - 章节阅读页面通用变量获得:
若在章节阅读页面仍不能读取到内容,填写该项获得两个变量 {read8g3v1}、{read8g3v2} 用于下一项获得最终内容地址。
章节内容页面地址:
通常不需要使用该项设置,建议仅当需要从章节阅读页面获得特殊变量才能得到内容页面地址时填写上一项及本项。
可用变量
。
章节内容起始与结束标记:
同上。
内容替换:
将书籍介绍以及章节内容中的 一个或多个目标字符 按顺序替换为 目标值(可为空)。
若内容中有非\r\n或\n换行的换行符,请将其替换为\n
[+]
下载图片:
可选。是否下载图片到本地。若目标站图片章节较多,可能导致本地空间占用较大,建议仅在目标站图片禁止盗链时使用。
开启 关闭
图片前导路径:
可选。当目标站使用相对地址调用图片时,需要设置该项。
页面压缩:
所采集网站的页面是否被压缩,如果采集全部都是乱码则表示只能探测失败或所选压缩方式与目标网站不符。
智能探测 无压缩 gzip 压缩 deflate 压缩
目标站编码*:
所采集网站的页面编码,可以通过网站的 meta 标签查看,如果采集出现文字乱码则表示智能探测失败或所选编码与目标网站不符。
智能探测 utf-8 gb2312 big5