今天想从起点获得小说的更新..可是查看结果采集下来的都出现下列的错误
未采集到本章节
网址:
http://newauthor1.cmfu.com/books/78951/2109487.txt
规则:document.write('||')
对比后发现起点的内容url好象做了变化..发现的变化如下
newauthor = author
书封面的地址也做了一定的修改..原先的采集的时候会出现错乱了
修改的方式是将其替换成:<img src=||width=||
解决方法讨论:
章节内容地址:
http://www.cmfu.com/readchapter.asp?bl_id={read8b2bvar1}&bu_id={read8b2cvar1}||
http://newauthor{read8c2cvar1}.cmfu.com/books/{read8b2bvar1}/{read8b2cvar1}.txt
取得章节内容二次地址用的变量:/http:\/\/newauthor([\d]+)\.cmfu\.com/isU
我做的方式是将:"章节内容地址","匹配正则 - 取得章节内容二次地址用的变量"
两个的原地址替换成新的url地址...可是出现了只能采集到author1.cmfu.com的内容..其他如author2.author3的内容就无法采集...估计应该是正则表达式出现的错误.
不知道那位能够解答这个问题