12 12
发新话题
打印

[采集规则?] [求助]换行的HTML代码就不识别了?

今天下载了3.3
在本机测试  写采集遇到这样的一个问题
原代码是
<a href="view_book.asp?id=218192" title="本章字数:5460

更新日期:2007-6-10 14:14:09">2、魔鬼亲临的童年</a></td>

自动换行了
采集正则表达|<a href="view_book.asp?id=(\d+)" title=.*>(.*)</a>|isU
结果无法识别
怎么解决啊?

TOP

两个.*连着肯定出问题啊

表达式本身也错误了

读吧采集正则的写法更本没研究好就来写 当然不行了

TOP

一  两 个连的.*之间有差别的 一个有()一个没有
这是读吧能识别的

二 这个规则是3.3的新改的 按照官方带的起点演示写的 应该没问题

TOP

一  两 个连的.*之间有差别的 一个有()一个没有
这是读吧能识别的

二 这个规则是3.3的新改的 按照官方带的起点演示写的 应该没问题

TOP

1.  2个.* 一个有()一个没有 这我能看的出..
.*本来就不好区域界定,你还把2个.*连在一块用...本来出现2个.*也没什么 ,主要是自作聪明的把不该去的常量 也用这个代替了,那不出问题才怪:

2.  新改的 你也要看清楚,哪些改了哪些没改

你不是按起点的演示写的么? 那我就把起点的拿出来比较下
|http://Author(\d+)\.cmfu\.com//books|isU

不知道是你眼神不好 还是我

TOP

TOP

1 原来在3.1里这样写采集规则 能采 很正常 两个.*没问题 有()这个是所需的变量组 这个读吧能识别 我采过很多站都是这样写的
2 请注意你说的那个起点规则 那个是内容二次匹配的规则
请你再看一下起点章节匹配规则
|<a href='javascript:gotopage\((\d+)\)'.*target=_top>(.*)</a></td>|isU
\出现在(和)前 是为了区分(\d+)的
其他以前有.和/的都已经不需要\了

TOP

注意 这里的换行不是自动换行
而是回车换行的 好像读吧一直不能解决这样的采集

TOP

/前不需要\转义符了 这鬼都能看的出
但是 谁说.前不用\转义了?

..............................极度无语

除了. 还很很多都需要转义的

知道为什么 读吧3.1'/'前要转义而3.3不需要了吗?

TOP

引用:
引用anhuicl于2007-6-11 13:06发表的文章:
1 原来在3.1里这样写采集规则 能采 很正常 两个.*没问题 有()这个是所需的变量组 这个读吧能识别 我采过很多站都是这样写的
2 请注意你说的那个起点规则 那个是内容二次匹配的规则
请你再看一下起点章节匹配规则
|<a href='javascript:gotopage\((\d+)\)'.*target=_top>(.*)</a></td>|isU
\出现在(和)前 是为了区分(\d+)的
其他以前有.和/的都已经不需要\了
..........
1.我没说用2个有问题,你请仔细看..我说2个.*连在一起用容易出问题 <注意"连在一起用">
2.真无语了...内容2次规则难道和章节匹配正则 遵循不一样的正则表达式写法吗?
既然你非要章节匹配正则  好  请看自带的翠微的
|<a href="([\d]+)\.html">(.+)</a>|isU

麻烦你自己去后台看下...............
.... 不是我多厉害  毕竟我用读吧 比你用的久

可惜...

TOP

 12 12
发新话题