16 12
发新话题
打印

[采集规则?] 起点的规则做了修改了

今天想从起点获得小说的更新..可是查看结果采集下来的都出现下列的错误
未采集到本章节
网址:http://newauthor1.cmfu.com/books/78951/2109487.txt
规则:document.write('||')

对比后发现起点的内容url好象做了变化..发现的变化如下
newauthor = author
书封面的地址也做了一定的修改..原先的采集的时候会出现错乱了
修改的方式是将其替换成:<img src=||width=||

解决方法讨论:
章节内容地址:http://www.cmfu.com/readchapter.asp?bl_id={read8b2bvar1}&bu_id={read8b2cvar1}||http://newauthor{read8c2cvar1}.cmfu.com/books/{read8b2bvar1}/{read8b2cvar1}.txt
取得章节内容二次地址用的变量:/http:\/\/newauthor([\d]+)\.cmfu\.com/isU
我做的方式是将:"章节内容地址","匹配正则 - 取得章节内容二次地址用的变量"
两个的原地址替换成新的url地址...可是出现了只能采集到author1.cmfu.com的内容..其他如author2.author3的内容就无法采集...估计应该是正则表达式出现的错误.
不知道那位能够解答这个问题

TOP

法线个地方变了为什么只只修改一处呢?当然采不到了

TOP

哪个高手可以把规则发出来啊..~~~~急急....

TOP

发现起点的author2.cmfu.com这个地址是没有连接的..会不会是因为这个原因而使正则表达式出现错误呢?请那位高手解答啊???

TOP

昏迷``都没解决的方法``````

TOP

不要加数字。
但是问题有些书章节不能采到内容,
有些又可以,
我晕,搞了一天了。

TOP

沙发一个  

TOP

楼上的也算沙发?

TOP

起点的采集规则采集不到会员区的有什么用,还不如去采集一些其他的书站的小说呢,那的书节都比起点的多.

TOP

哈哈  不算沙发  也帮顶一下了

TOP

 16 12
发新话题