说明一下:
可采封面,可采全站绝大部分文章,美中不足就是章节列表直接就是 一章 二章 少了个 第字,还有序言什么的采不了,章节列表不是“第”字开头的都采不了。比如 第一章 第一话 第一节 这种都可以采,但是不规则的就没法采了,比如书号25474的章节就没分第什么什么,就采不了。
造成这个情况的原因是我把第字拿出来做规则要求了:
复制内容到剪贴板
代码:
这是原代码:
<td class="ccss">
<a href="1029573.html">第一章</a>
</td>
这是匹配正则:
|<a href="(\d+)\.html">第(.*)</a>|isU正则之所以要这样写,是因为<a href="……\">……</a>这个结构太常见,凡是超连接都是这种结构,如果以这个做正则,那根本就采集不到。只有多拿出个第字````
还有个原因就是匹配正则不能跨行,所以没办法用上面的ccss">做区分。