发新话题
打印

[采集规则?] 老大 你千万别说你家也在东风西路住

老大 你千万别说你家也在东风西路住

  哈哈

TOP

哦``我那规则是参照全文阅读写的,那几部书没有全文阅读导致不可采章节

TOP

TOP

把我那个规则修改一下。
复制内容到剪贴板
代码:
封面标签:                        ><img src="||" border="0" width="100" height="135" align="middle" hspace="5" vspace="5" alt="
章节列表地址:                  [url]http://read.2100book.com/files/article/html[/url]/{read8b2bvar1}/{read8bid}/index.html
匹配正则—取得章节列表内容的变量组:  |<a href="(\d+)\.html">第(.*)</a>|isU

TOP

说明一下:
可采封面,可采全站绝大部分文章,美中不足就是章节列表直接就是 一章 二章  少了个 第字,还有序言什么的采不了,章节列表不是“第”字开头的都采不了。比如 第一章  第一话  第一节 这种都可以采,但是不规则的就没法采了,比如书号25474的章节就没分第什么什么,就采不了。
造成这个情况的原因是我把第字拿出来做规则要求了:
复制内容到剪贴板
代码:
这是原代码:
    <td class="ccss">
            <a href="1029573.html">第一章</a>
            </td>

这是匹配正则:
|<a href="(\d+)\.html">第(.*)</a>|isU
正则之所以要这样写,是因为<a href="……\">……</a>这个结构太常见,凡是超连接都是这种结构,如果以这个做正则,那根本就采集不到。只有多拿出个第字````
还有个原因就是匹配正则不能跨行,所以没办法用上面的ccss">做区分。

TOP

呵呵。其实大家可以多动脑筋,应该还有别的办法的。而且本来也是有的,就是可以从那个“全文阅读”做章节列表采集,但是因为它这个破站居然采用了好几种域名,比如有的是http://read.2100book.com/files ... .2100book.com/files开头,导致规则不能写```

TOP

发新话题