11 12
发新话题
打印

[采集规则?] [原创]关于封面的采集[08-08]

[程序版本] Read8 v3.3 正式版
[采集网站] 涅盘中文网
[目标地址] http://www.npzw.net
[教程内容]
对于很多网站来说,封面有多种格式,如

http://www.npzw.net/Book/5902.aspx 的为 <img src="/UploadPhoto/20070525072226.jpg"><br /><br />
http://www.npzw.net/Book/20.aspx 的为 <img src="/DownImg/20/index.jpg"><br /><br />

遇到这样的情况,有的朋友就不知道该怎么做了,其实很简单
只要获取的封面范围稍微大点就可以了,比如大家经常用的都是
<img src="/UploadPhoto/||"><br /><br />||http://www.npzw.net/UploadPhoto/
但是这样就没办法采集到/DownImg/下的封面
只需要这样修改就可以正常采集到所有的封面了
<img src="/||"><br /><br />||http://www.npzw.net/
复制内容到剪贴板
代码:
[b]zozi:[/b]
[color=red]
不好意思插一下,因为你这个影响太大了。


你这个说法是错误的哦,锅。你改了之后的规则是:
<img src="/||"><br /><br />||[url]http://www.npzw.net[/url]/

那假如一个页面是这样:
<head>测试</head>
<body>
<img src="/images/logo.gif" alt="这里是网站logo">
……
<img src="/DownImg/20/index.jpg"><br /><br />
……
按照你那个规则,那采集到的封面的区域就成了:

images/logo.gif" alt="这里是网站logo

截取的是这个东西。表现在读吧上就是偏到一边,根本没办法采集。而且采集了也是错的。
||的前半段一定要找唯一性,绝对不能只靠<img src="这种大众的代码。
[/color]

TOP

谢谢了不过填上去采集规则变样了。不知道衰锅试过没有?全部偏到一边去了

TOP

你怎么填的?把你的规则完整的贴出来我看看

TOP

你这个说法是错误的哦,锅。你改了之后的规则是:
<img src="/||"><br /><br />||http://www.npzw.net/

那假如一个页面是这样:
<head>测试</head>
<body>
<img src="/images/logo.gif" alt="这里是网站logo">
……
<img src="/DownImg/20/index.jpg"><br /><br />
……
按照你那个规则,那封面的区域就成了:
images/logo.gif" alt="这里是网站logo
截取的是这个东西。表现在读吧上就是偏到一边,根本没办法采集。而且采集了也是错的。
||的前半段一定要找唯一性,绝对不能只靠<img src="这种大众的代码。

TOP

。。。。。哦。。。。你说对了,还真没注意到,本来只是想随便写过东西,没想到写错了。。。。

TOP

呵呵。因为这种问题我多次遇到,开始也是象你这么写的,结果不对``然后我分析原因是这样。

TOP

可以在前面加上其他的代码,比如有的网站代码是这样:
<div class="bookcover"><img src……
这样的就比较好写`

TOP

如果前面实在没有其他东西也不是完全没有办法,可以试试用.*统配符跨行。不过我有时候不成功``

TOP

你说的是前面有唯一性的字符的,如果没有呢?而你说的用*,问题是封面采集不支持正则。。。。

TOP

。。我的想法是既然可以用(\d+)获得书号,那应该也可以用其他的

TOP

 11 12
发新话题