[程序版本] Read8 v3.3 正式版
[采集网站] 涅盘中文网
[目标地址]
http://www.npzw.net
[教程内容]
对于很多网站来说,封面有多种格式,如
http://www.npzw.net/Book/5902.aspx 的为 <img src="/UploadPhoto/20070525072226.jpg"><br /><br />
http://www.npzw.net/Book/20.aspx 的为 <img src="/DownImg/20/index.jpg"><br /><br />
遇到这样的情况,有的朋友就不知道该怎么做了,其实很简单
只要获取的封面范围稍微大点就可以了,比如大家经常用的都是
<img src="/UploadPhoto/||"><br /><br />||
http://www.npzw.net/UploadPhoto/
但是这样就没办法采集到/DownImg/下的封面
只需要这样修改就可以正常采集到所有的封面了
<img src="/||"><br /><br />||
http://www.npzw.net/
复制内容到剪贴板
代码:
[b]zozi:[/b]
[color=red]
不好意思插一下,因为你这个影响太大了。
你这个说法是错误的哦,锅。你改了之后的规则是:
<img src="/||"><br /><br />||[url]http://www.npzw.net[/url]/
那假如一个页面是这样:
<head>测试</head>
<body>
<img src="/images/logo.gif" alt="这里是网站logo">
……
<img src="/DownImg/20/index.jpg"><br /><br />
……
按照你那个规则,那采集到的封面的区域就成了:
images/logo.gif" alt="这里是网站logo
截取的是这个东西。表现在读吧上就是偏到一边,根本没办法采集。而且采集了也是错的。
||的前半段一定要找唯一性,绝对不能只靠<img src="这种大众的代码。
[/color]