发新话题
打印

求助:如何采集到正确的章节目录

<tr>
      <td colspan="4" class="vcss"><div class="dvcss">
        <DIV id="info"><DIV class="info">
        <DIV class="infoleft"><a href="http://www.shulu.net/6/6373.html">全文阅读</a>  <a href="http://www.shulu.net/article/addbookcase.php?bid=6373" target="_blank">放入收藏架</a>  <a href="http://www.shulu.net/modules/article/uservote.php?id=6373" title="推荐校花攻略" target="_blank">投票给校花攻略</a></DIV>
        <DIV class="inforight"><a href="http://www.syzw.cn/modules/article/articleinfo.php?id=6373" title="校花攻略">作品:校花攻略</a>  作者:九月阳光  <a href="http://www.shulu.net/modules/article/review.php?aid=6373" target="_blank">发表评论</a></DIV>
        </DIV></DIV>
      </div></td>
    </tr>
    <tr>
      <td colspan="4" class="ccss"><div class="dccss">
        <DIV id="spanclassD"><DIV id="adtopD"><DIV class="adtopD"><SPAN id="symad_06"></SPAN></DIV></DIV></DIV>
       </div></td>
    </tr>
            <tr>
      <td class="ccss"><div class="dccss">
            <a href="1410027.html">第一章 离别出山</a>
            </div></td>
            </tr>


html代码如上所示,其中,<a href="1410027.html">第一章 离别出山</a>是我想采集的章节地址,其它的地址都不是章节地址,但在采集中<a href="http://www.shulu.net/6/6373.html">全文阅读</a> 等这几个地址也采集了进来,我该如何采集到正确的章节地址呢?
我的表达式是这样写的,该如何修改?  | <a href="(\d+).html">(.+)</a>|isU

谢谢了!!!!
好书网欢迎大家光临 - http://www.dushuhao.com

TOP

你可以这样 |<td class="ccss"> <div class="dccss"> <a href="(\d+).html">(.+)</a></div></td>|isU

这样就只采集文章目录链接了

你本来的是采集页面内的所有链接

TOP

回二楼的,<div class="dccss">和<a href="(\d+).html">中间有一个换行,用你写的这个表达式无法采集啊。
好书网欢迎大家光临 - http://www.dushuhao.com

TOP

那就这样|<td.*class="ccss">.*<div.*class="dccss">.*<a href="(\d+).html">(.+)</a></div></td>|isU


这样就好

TOP

引用:
原帖由 皇朝de伯爵 于 2008-5-13 17:12 发表
那就这样|.*.*(.+)|isU


这样就好
这样我也试过,但提示章节采集错误。
好书网欢迎大家光临 - http://www.dushuhao.com

TOP

不是吧。我这样做就而米问题啊#17

TOP

谢谢楼上的,问题解决了!!!
好书网欢迎大家光临 - http://www.dushuhao.com

TOP

发新话题