发新话题
打印

防采集的一种方法,不知行不行

采集与搜索引擎的机器人不同。采集需要对网页进行分析,以找到规则,分别对标题和内容进行读取并记录到数据库中。

如果我们能够把网页做成没有规则,采集也就无从入手了。

说到规则,我就想趣了空格。

空格这东西,在HTM的<>中,并不产生作用,也就是说,一个空格的位置,你多加几个也是没关系的。象<table>你可以写成< table>,<table >,<  table     >。都可以,所以,如果在网页里面,特别是采集程序重点分析的位置,我们利用程序,在这些位置加些空格,采集也就难以下手了,就算采到了,也就几篇而已,影响不大。

我准备这样做,象原来在模板中的<table>,我会改成<{$space1$}table{$space2$}>,在这里,{$space1$}和{$space2$}是自定义标签(也可以融合到程序中),然后在程序中使用随机数来决定这两个标签用多少个空格来代替。

呵呵,人家现在想用<table>来做为特征采集是完全做不到的了。但对于我的网页,显示上一点影响也没有,对于搜索引擎的机器人也一点影响没有。

哪位实现下?

TOP

这样做是不是实际啊?
如果大家都防盗,那我们又该怎么办?
要知道,现在大家去找合作VIP的网站太难了,他们要求太高,我们很难做的~!~~

TOP

正则表达式就是用来匹配用的,加N个空格也照采无误。从html代码上防止采集,基本上没有办法。
我有个用GD库+PHP的生成随机图片的方法防止采集。但也不是根本。 小说阅读网不知道怎么做的,没法采集。正在研究。

TOP

那就不知道了

TOP

比较好的的放采还是内容图片化+地址转写

TOP

2楼说的有道理,楼主这种人一边咋呼着求"采集规则""采集规则",一边在自己站点做防采工作,不知道你到底是咋想的;就和全世界女人都当你情人,你的老婆别人最好连看都别看一样的道理!

你网站做好了想赚钱了你把文章加VIP就是了,用的着防采么?知道新人多不容易么?有研究防采的时间还不如多想想如何宣传和推广好你的网站!

做人要厚道!

TOP

发新话题