28 123
发新话题
打印

[采集规则?] [注意]免费帮大家做采集咯[每天只接受两个]

引用:
引用artherk于2007-7-29 15:28发表的文章:
呕象 帮我写下幻剑的采集
不好意思,现在幻剑改版,启用了页面跳转的形式,我最多能够获取到书籍信息和分卷、章节列表,但是实在无法获取到章节内容。。。。

TOP

引用:
引用看书吧于2007-7-29 17:25发表的文章:
扼那个批量采集怎么填写?
引用:
引用看书吧于2007-7-29 17:25发表的文章:
扼那个批量采集怎么填写?
首先说明,86ZW和fhzw用的都是文奇的小说系统(其实两个站就一个站长)
而文奇的分页又是那种变态形的分页,偶暂时没有办法破解,所以只能批量采集某一个页面中的文章列表

批量采集规则写法:

一、首先确定要采集的页面目标,比如(我这里86zw打不开,用fhzw讲解)排行页:http://www.fhzw.net/Book/ShowBookTop.aspx

二、查看页面代码,点击浏览器上的查看——查看源文件打开目标HTML代码

三、取得要采集文章列表的范围,也就是定位,知道自己需要的地方是哪里,这里需要的范围是:
复制内容到剪贴板
代码:
  <div id="CrListText">
  
      <ul>
           <li class="li1">1</li>
           <li class="li2"><a href="/Book/LN/19.aspx">异世大陆</a></li>
           <li class="li3"><a href="/Book/2059/Index.aspx"><font color="#006699">张三丰异界游</font></a></li>
           <li class="li4"><a href="/Html/Book/16/2059/637249.shtm">正文 第七百二十八节 平静的发展</a></li>
           <li class="li5">7月29日</li>
           <li class="li6"><a href="/Author/WB/2059.aspx">写字板</a></li>
           <li class="li7">连载中</li>
           <li class="li8">1202204</li>
        </ul>
……………………………………………………………………
        <ul>
           <li class="li1">100</li>
           <li class="li2"><a href="/Book/LN/3.aspx">都市生活</a></li>
           <li class="li3"><a href="/Book/24/Index.aspx"><font color="#006699">另类杀手艳福星</font></a></li>
           <li class="li4"><a href="/Html/Book/15/24/484583.shtm">第七卷 锋芒初露 382梦醒时分(终结)</a></li>
           <li class="li5">2月13日</li>
           <li class="li6"><a href="/Author/WB/24.aspx">天涯孤星</a></li>
           <li class="li7">完结</li>
           <li class="li8">108707</li>
        </ul>
       
  </div>
这里面的内容,也就是书籍列区块

四、分析文章ID规则,可以看出,文章的HTML代码形式为:
复制内容到剪贴板
代码:
<li class="li3"><a href="/Book/24/Index.aspx"><font color="#006699">另类杀手艳福星</font></a></li>
复制内容到剪贴板
代码:
/<a href="\/Book\/([\d]+)\/Index\.aspx">/isU
这样,就能够获取到文章编号了

五、分析分页代码,因为文奇分页没办法破解,所以这里就不讲解了,可以按照上面的方法来分析

六、填写规则
因为我使用的是正则式的批量采集,所以添加时添加为正则式批量采集
        1. 批量采集名称
                这个完全可以随便填写,但为了自己能够方便整理,建议填写个合适的,比如:烽火中文排行采集
        2. 网站
                也就是选择采集规则,把你的86zw网的采集规则选上就OK了
        3. 目标地址
                需要批量采集的目标地址,就是刚才的http://www.fhzw.net/Book/ShowBookTop.aspx
        4. 书籍编号正则
                刚才的/<a href="\/Book\/([\d]+)\/Index\.aspx">/isU
        5. 页码范围
                分析出来的页面范围,按照要求填写

现在就可以使用批量采集来采集小说了

TOP

哦谢谢衰锅,,,,

TOP

谢谢兄弟了~~能做个腾讯读书book.qq.com的规则吗

TOP

这两天要回趟老家,可能去两到三天,所以不能给大家做规则,我回来后会根据大家的回贴时间来给大家写规则的

TOP

啥时候回来 ................................

TOP

谢谢楼主,连城书盟的采集规则能制作吗?
www.lcread.com 连城书盟

TOP

引用:
引用chitang218于2007-8-1 10:49发表的文章:
谢谢楼主,连城书盟的采集规则能制作吗?
www.lcread.com 连城书盟
OK,写好了
[attach]380[/attach]

TOP

 28 123
发新话题