关关采集规则教程

2024-11-01 21:03:25

1、介绍一下关关采规则当中需要用到的一些标签\d* 表示数字 \s* 表示空格+换行 .+? 表示字符(不能为空) .*表示字符(可以为空)()表示我们需要的部分 ((.|\n)*) 章节的内容部分,包括了换行。=====与杰奇后台标签的对应关系=====!!!!相当于([^><]*)~~~~相当于([^><'"]*)^^^^相当于([^><\d]*)$$$$相当于([\d]*)****相当于(.*)

2、现在开始编写规则,假设目标站为凌风阁小说(www.lingfengge.com)首先我们需要复制一份原有的规则做模版(规则文件存放在Rules目录下)。把复制的那份做模板的规则命名为lingfengge.xml 或凌风阁小说.xml,这个主要是便于规则管理。

关关采集规则教程

4、现在可以正式的编写规则了,我们写规则时要找的标志性代码必需是整个页面里唯一的代码,其次我们取用的部份代码超精简超好。1. GetSiteName(站点名称) 这里我们写凌风阁(在执行任务时会在上方显示)2. GetSiteCharset(站点编码) 这里我们打开www.lingfengge.com源代码查找 charset= 得到charset=gbk这个gbk就是我们需要的站点编码3. GetSiteUrl(站点地址) 这个就不用我说了吧 写入http://www.lingfengge.com4. NovelListUrl(站点最新列表地址) 因为这些每个站点的不同,这个就需要自己去找了凌风阁的是http://www.lingfengge.com/top/lastupdate_1.html

5、 NovelList_GetNovelKey(从最新列表中获得小说编号) 此规则中需要同时获得书名,获得书名是在手动模式的时候用到,如果你要用手动模式那么必须获得书名,否则手动模式将会无法使用。我们 打开http://www.lingfengge.com/top/lastupdate_1.html这个地址查看源文件,我们编写这个规则的时候找到想要获得的内容所在的地方,比如我们打开地址看到想要获得的内容的第一本小说的名字是“天价小娇妻:总裁的33日索情”我们在源文件里面找到“天价小娇妻:总裁的33日索情”复制代码我们编写规则用到的代码其实也不是很多,编写规则的原则是能省则省,也就是说代码越短越好除非万不得已一般精短一些比较好。好了不废话了,在这个规则里面我们需要用到的是<span class="bname">《<a href="http://www.lingfengge.com/txt/5727.html" title="天价小娇妻:总裁的33日索情" target="_blank">天价小娇妻:总裁的33日索情</a>》</span>复制代码我们将这段改下<span class="bname">《<a href="http://www.lingfengge.com/txt/(\d*).html" title=".+?" target="_blank">(.+?)</a>》</span>复制代码其中 (\d*) 表示编号 (.+?) 表示小说名 .+?表示代替此位置字符,经过测试正确

关关采集规则教程

7、 NovelInfo_GetNovelPubKey(获得小说公众目录页地址)很多站目录页的地址有子ID在前边,所以我们要采集目录页的地址我们获得代码如下: <a href="http://www.lingfengge.com/html/5/5727/index.html" ><font color="red">在线阅读</font></a> 复制代码这一段 我们改下 <a href="(.+?)index.html" ><font color="red">在线阅读</font></a>9. PubIndexUrl(公众目录页地址) 这个里面写入{NovelPubKey}index.html

关关采集规则教程

10、 PubContentUrl(章节内容页地址) 这里拿http://www.lingfengge.com/html/5/5727/1693778.html这个来说明下该怎么用,其中的http://www.lingfengge.com/html/5/5727/这个是前边获得的目录地址我们用{NovelPubKey}替代,1693778这个就是在 PubChapter_GetChapterKey 里面获得的 章节编号我们{ChapterKey} 替代,填入{NovelPubKey}{ChapterKey} .html 18. PubContentText(获得章节内容) 这个获得方法我们就拿http://www.lingfengge.com/html/5/5727/1693778.html这个地址来说吧,打开源代码在内容上下我们看到复制代码这里我就直接改成正规的内容获得代码如下<div class="novel_content">((.|\n)+?)<center><script type="text/javascript">BAIDU_CLB_fillSlot("439309");</script>复制代码这里说明下((.|\n)+?)为我们要获取的内容, <div class="novel_content"><center><script type="text/javascript">BAIDU_CLB_fillSlot("439309");</script>这两个必需要是唯一的。

关关采集规则教程

11、 PubContentImages(章节内容中提取图片正则) 章节中图片也就是我们所说的图片章节,这里我们可以用万能图片规则<[^<]*((?<=<(?:img|IMG)[^>]*(?:(?:src|SRC)(?:\s*=\s*(?:["']?))))(?:[^\s"'>]*)\.(?:jpg|gif|jpeg|bmp|png|GIF|JPG))[^>]*>

12、现在说下替换,每行一个替换,格式如下需要替换的内容♂替换结果<div.+?>复制代码这个表示过滤<div.+?>♂<br>复制代码这个表示替换现在的站长们都会在小说章节内容上加入自己的广告如(**站第一时间更新vip章节)、(**站首发)等广告我们可以用**站第一时间更新vip章节♂替换的内容**站首发♂替换的内容复制代码其他的替换类似出现空章节情况有可能是目标站正好重启网站或者你的采集IP被封等原因如果不是以上原因,请先检查你采集的章节是否是图片章节,如果你的PubContentImages(章节内容中提取图片) 没有获得图片章节内容的话软件就会检查你的采集文字内容 PubContentText(获得章节内容)这个里面的正则的匹配,如果 PubContentImages(章节内容中提取图片) 跟PubContentText(获得章节内容) 都没有匹配的内容,那么就出现了上面我们说的空章节的原因。

猜你喜欢