12 12
发新话题
打印

[采集规则?] 飞库规律 不知道写的对不对 先发来[讨论]

英文标识:
当前站点规则在采集中的唯一英文名称。只能使用字母和数字。 feiku

站名:             飞库
地址:      http://www.feiku.com
书籍介绍地址:  http://www.feiku.com/Book/{read8bid}.html
书籍标题标签:  <b>||</b></td>
书籍作者标签:  <td>作者:||</a></td>
书籍介绍标签:  <td>||</td>
封面标签:      <img src="http://www.feiku.com/UploadPhoto||"||http://www.feiku.com/UploadPhoto
书籍分类标签:  <b>书籍分类</b>||</td>|||167玄幻-164#奇幻-169#武侠-178#言情-172#科幻-171#游戏竞技-174#军事-177#同人-6
匹配正则 - 取得书籍介绍内容的变量:|www\.feiku\.com/Html/Book/html/([\d]+)/|isU
章节列表地址:  http://www.feiku.com/Html/Book/{read8b2bvar1}/{read8bid}/list.html
匹配正则 - 取得章节列表内容的变量组:  |<a href="([\d]+)\.html">(.+)</a>|isU
章节内容地址:  http://www.feiku.com/Html/Book/{read8b2bvar1}/{read8bid}/{read8b2cvar1}.html



我第一次写读吧规律 原先老用杰奇了~~    我希望大家开小说站都能采集文字  占不了多大空间~   我朋友都是搞杰奇的  所以这边没人熟人~~  如果有错误 帮着指点` 自己在加修改~  我希望大家把自己的都分享出来~~  www.cyxsw.com  老兵


我今天看了服务器入库的章节图  没吓死我 100多本书 快用了700多M的图空间了  虽然是服务器那也点省着点用 没办法  问我朋友他们说这站可以  所以就先写了~   
[attach]327[/attach]

TOP

支持楼主的行为。不过另外提一点,如果是用读吧采集很占用空间,都是因为图片入库的原因。你要在设置里面选择图片不本地化。这样就可以不占用空间了。

TOP

书籍介绍标签明显不对``其他的我不知道

TOP

唉。你不是来混规则了吧??那个错的也太离谱了。且不说读吧的正则标签更新,不需要[]了;也不说你书籍介绍代码只用<td>开头用</td>结尾,不采集整个页面才怪;单说你章节名称的匹配正则:

这个是原章节代码:
复制内容到剪贴板
代码:
<td width='25%'>
<a href="2380068.html" title="更新时间:2006-8-14 6:09:00
更新字数:5306"><div  class="xt">第四章 地主家也没有余粮啊</div></a></td>
这个是你的规则:
复制内容到剪贴板
代码:
|<a href="(\d+)\.html" >(.+)</a>|isU
这也差太多了```

TOP

就读吧目前的可用代码来讲,对这种换行的章节名称处理起来确实难……因为貌似正则不能跨行。所以这个,要么只能获得章节内容页面ID,要么只能获得章节名称,想同时得到内容页面ID和章节名称,难```

TOP

我设置了~  不显示图片~~  愁人

TOP

引用:
引用zozi于2007-7-25 16:47发表的文章:
就读吧目前的可用代码来讲,对这种换行的章节名称处理起来确实难……因为貌似正则不能跨行。所以这个,要么只能获得章节内容页面ID,要么只能获得章节名称,想同时得到内容页面ID和章节名称,难```
isU的s就是让.可以匹配换行的

TOP

哦?指点一下,就本例中的那个正则该怎么写 谢谢。好多站都遇到过这种情况

TOP

引用:
引用zozi于2007-7-25 23:49发表的文章:
哦?指点一下,就本例中的那个正则该怎么写 谢谢。好多站都遇到过这种情况
你说的是这个么?
引用:
<a href="2380068.html" title="更新时间:2006-8-14 6:09:00
更新字数:5306"><div  class="xt">第四章 地主家也没有余粮啊</div></a>
直接
引用:
/<a href="([\d]+)\.html" title=".*"><div class="xt">(.*)<\/div><\/a>/ig
这样就可以了

TOP

采不到。

TOP

 12 12
发新话题