发新话题
打印

[采集规则?] [讨论]关于两种格式的采集

先睡觉去了,明天再来接着想办法

TOP

一种是:<a href="123465.html" title="更新时间">标题</a>
一种是:<a href="123465.html" title="更新时间"><div class="xt">标题</div></a>

|<a href="([\d]+)\.html" title=".*">(.*)<\/a>|isU

就这样写,最多就是标题前多出个<div class="xt">,标题后多个</div>,但是章节名称会过滤HTML代码,所以被过滤掉。我就用的这个规则,确实可用。
我现在采集的地址是第二种。第二种都能采集,那第一种不用试都可以。  

看来我们合作解决了这个难题。

TOP

恩,你说的不错,但是始终不是最好的解决方法,最好的就是能在正则中直接过滤掉
哦,对了,好像正则里能够判断开始字符和结尾字符,既然这样的话
那么开始字符是>,结尾字符是<,不知道这样行不行?

TOP

呵呵,那没办法和其他代码区分啊,这种代码太多了

TOP

你的封面规则怎么写的?它有封面和没封面代码不一样的

TOP

突然又对我刚才的设想有了质疑。。。。郁闷,算了,不想了~~
按照你说的那种方法也不错,呵呵~~
其实我也提了个建议,就是最好封面采集也能用正则~~~
否则遇到特殊情况还真麻烦

TOP

最好都能用正则``

TOP

恩,是呀~~而且能够自定义需要几次匹配~这样就爽歪歪咯~
这样的话,别说八路的多模板风格难搞,就算要采集每个字一种风格的都是可以的啦~

TOP

睡觉了,好困,今天和美女去游泳,教她教得好累,先睡了,明天再说吧~

TOP

靠有美女,不是教的累吧?…………………………

TOP

发新话题