引用:
引用看书吧于2007-7-29 17:25发表的文章:
扼那个批量采集怎么填写?


引用:
引用看书吧于2007-7-29 17:25发表的文章:
扼那个批量采集怎么填写?


首先说明,86ZW和fhzw用的都是文奇的小说系统(其实两个站就一个站长)
而文奇的分页又是那种变态形的分页,偶暂时没有办法破解,所以只能批量采集某一个页面中的文章列表
批量采集规则写法:
一、首先确定要采集的页面目标,比如(我这里86zw打不开,用fhzw讲解)排行页:
http://www.fhzw.net/Book/ShowBookTop.aspx
二、查看页面代码,点击浏览器上的查看——查看源文件打开目标HTML代码
三、取得要采集文章列表的范围,也就是定位,知道自己需要的地方是哪里,这里需要的范围是:
复制内容到剪贴板
代码:
<div id="CrListText">
<ul>
<li class="li1">1</li>
<li class="li2"><a href="/Book/LN/19.aspx">异世大陆</a></li>
<li class="li3"><a href="/Book/2059/Index.aspx"><font color="#006699">张三丰异界游</font></a></li>
<li class="li4"><a href="/Html/Book/16/2059/637249.shtm">正文 第七百二十八节 平静的发展</a></li>
<li class="li5">7月29日</li>
<li class="li6"><a href="/Author/WB/2059.aspx">写字板</a></li>
<li class="li7">连载中</li>
<li class="li8">1202204</li>
</ul>
……………………………………………………………………
<ul>
<li class="li1">100</li>
<li class="li2"><a href="/Book/LN/3.aspx">都市生活</a></li>
<li class="li3"><a href="/Book/24/Index.aspx"><font color="#006699">另类杀手艳福星</font></a></li>
<li class="li4"><a href="/Html/Book/15/24/484583.shtm">第七卷 锋芒初露 382梦醒时分(终结)</a></li>
<li class="li5">2月13日</li>
<li class="li6"><a href="/Author/WB/24.aspx">天涯孤星</a></li>
<li class="li7">完结</li>
<li class="li8">108707</li>
</ul>
</div>这里面的内容,也就是书籍列区块
四、分析文章ID规则,可以看出,文章的HTML代码形式为:
复制内容到剪贴板
代码:
<li class="li3"><a href="/Book/24/Index.aspx"><font color="#006699">另类杀手艳福星</font></a></li>复制内容到剪贴板
代码:
/<a href="\/Book\/([\d]+)\/Index\.aspx">/isU这样,就能够获取到文章编号了
五、分析分页代码,因为文奇分页没办法破解,所以这里就不讲解了,可以按照上面的方法来分析
六、填写规则
因为我使用的是正则式的批量采集,所以添加时添加为正则式批量采集
1. 批量采集名称
这个完全可以随便填写,但为了自己能够方便整理,建议填写个合适的,比如:烽火中文排行采集
2. 网站
也就是选择采集规则,把你的86zw网的采集规则选上就OK了
3. 目标地址
需要批量采集的目标地址,就是刚才的
http://www.fhzw.net/Book/ShowBookTop.aspx
4. 书籍编号正则
刚才的/<a href="\/Book\/([\d]+)\/Index\.aspx">/isU
5. 页码范围
分析出来的页面范围,按照要求填写
现在就可以使用批量采集来采集小说了