注册
登录
帮助
读吧书网主站
读吧书网官方论坛
»
站长交流
» 防采集的一种方法,不知行不行
‹‹ 上一主题
|
下一主题 ››
发新话题
发布投票
发布商品
发布悬赏
发布活动
发布辩论
发布视频
打印
防采集的一种方法,不知行不行
go123
读吧用户
帖子
386
威望
0
银币
55 个
点券
0 点
来自
江苏南通
发短消息
加为好友
当前离线
1楼
大
中
小
发表于 2006-6-30 04:44
只看该作者
采集与搜索引擎的机器人不同。采集需要对网页进行分析,以找到规则,分别对标题和内容进行读取并记录到数据库中。
如果我们能够把网页做成没有规则,采集也就无从入手了。
说到规则,我就想趣了空格。
空格这东西,在HTM的<>中,并不产生作用,也就是说,一个空格的位置,你多加几个也是没关系的。象<table>你可以写成< table>,<table >,< table >。都可以,所以,如果在网页里面,特别是采集程序重点分析的位置,我们利用程序,在这些位置加些空格,采集也就难以下手了,就算采到了,也就几篇而已,影响不大。
我准备这样做,象原来在模板中的<table>,我会改成<{$space1$}table{$space2$}>,在这里,{$space1$}和{$space2$}是自定义标签(也可以融合到程序中),然后在程序中使用随机数来决定这两个标签用多少个空格来代替。
呵呵,人家现在想用<table>来做为特征采集是完全做不到的了。但对于我的网页,显示上一点影响也没有,对于搜索引擎的机器人也一点影响没有。
哪位实现下?
UID
50
精华
0
积分
193
网站
阅读权限
100
注册时间
2005-7-1
查看详细资料
TOP
3400133
注册会员
帖子
142
威望
0
银币
4 个
点券
0 点
发短消息
加为好友
当前离线
2楼
大
中
小
发表于 2006-7-9 15:39
只看该作者
这样做是不是实际啊?
如果大家都防盗,那我们又该怎么办?
要知道,现在大家去找合作VIP的网站太难了,他们要求太高,我们很难做的~!~~
UID
677
精华
0
积分
71
网站
阅读权限
20
注册时间
2006-6-13
查看详细资料
TOP
一剑西行
新手上路
帖子
1
威望
0
银币
0 个
点券
0 点
发短消息
加为好友
当前离线
3楼
大
中
小
发表于 2006-7-12 23:37
只看该作者
正则表达式就是用来匹配用的,加N个空格也照采无误。从html代码上防止采集,基本上没有办法。
我有个用GD库+PHP的生成随机图片的方法防止采集。但也不是根本。 小说阅读网不知道怎么做的,没法采集。正在研究。
UID
751
精华
0
积分
1
网站
阅读权限
10
注册时间
2006-7-12
查看详细资料
TOP
go123
读吧用户
帖子
386
威望
0
银币
55 个
点券
0 点
来自
江苏南通
发短消息
加为好友
当前离线
4楼
大
中
小
发表于 2006-7-17 20:47
只看该作者
那就不知道了
UID
50
精华
0
积分
193
网站
阅读权限
100
注册时间
2005-7-1
查看详细资料
TOP
xdiy
注册会员
帖子
99
威望
0
银币
0 个
点券
0 点
发短消息
加为好友
当前离线
5楼
大
中
小
发表于 2006-9-3 19:13
只看该作者
比较好的的放采还是内容图片化+地址转写
UID
767
精华
0
积分
50
网站
阅读权限
20
注册时间
2006-7-18
查看详细资料
TOP
天草降临
新手上路
帖子
31
威望
0
银币
0 个
点券
0 点
发短消息
加为好友
当前离线
6楼
大
中
小
发表于 2006-12-26 23:16
只看该作者
2楼说的有道理,楼主这种人一边咋呼着求"采集规则""采集规则",一边在自己站点做防采工作,不知道你到底是咋想的;就和全世界女人都当你情人,你的老婆别人最好连看都别看一样的道理!
你网站做好了想赚钱了你把文章加VIP就是了,用的着防采么?知道新人多不容易么?有研究防采的时间还不如多想想如何宣传和推广好你的网站!
做人要厚道!
UID
1209
精华
0
积分
16
网站
阅读权限
10
注册时间
2006-12-15
查看详细资料
TOP
‹‹ 上一主题
|
下一主题 ››