前段时间有个加微信的伙伴让我帮忙弄下狂雨小说cms自动采集做个英文小说站,我以为是要我用火车头采集然后自动发布,等我登进后台一看,这系统自己就有自动采集的功能,那还需要费什么事呢,吧采集规则填好不就OK了么,先讲下这自动采集系统和火车头的原理和本质其实是一致的,首先呢是需要获得每一部小说的链接,分类网址的话基本上都是有规则的翻页形式,所以获取全部的小说链接还是非常简单的,也就是如图所示部分,多页的话page后面的变量设置成【内容】即可
然后接下来就是列表规则了,意思就是获得这些分类页所有的小说的链接,上面的网址填好后,这里就是利用区间加a标签的格式再加上必含内容和不包含内容来获得每一个小说的链接,先用区间大致定位链接的范围,再写上a链接的具体格式,想要获得的内容都设置成【内容】,代码里可能发生的变量都设置成*号。
列表规则最下面的关联页的话,获取小说章节可以在这里新建规则,如图作者新建了一个章节页,具体事例如下图:
如上图所示,获取章节的话同样是先利用区间判断所有章节链接的范围,然后在正确填写a标签的格式,想要获取的都设成【内容】,所有可能是变量的都设成*号,
接下来的就是内容规则了,这就相对简单很多了。在每部小说的介绍主页基本上都能获取到内容规则里面的每一项元素。栏目的话你可以固定到你自己的某一个和多个分类,要是设置对应分类的话,你的站点的分类要和目标站点的分类是一致的,
很久没写东西,很生疏的感觉。这些天看了很多优秀的原创者,觉得不管是学习还是创作,真的是需要天赋, 恒心、和热爱。最后就是归纳总结,自己看到的学到的最好记录下来,不然理解的忘了,会了的丢了,随着记忆力的减退,真的很多东西知识都是最熟悉的陌生人了。不好意思,很久没写东西感慨了下。
作者举例的这个采集目标网址是 https://wuxiaworld.online ,感兴趣的伙伴可以加我,想采集的话可以copy一份给你,这里有不少细节我都没有讲到应该, 简单提下觉得大家都会懂,弱智性的描述我都省了,真要需要解释和帮忙的话可以留言,
我还写了些其他站的规则。感兴趣留言就好,第一个那个是中文的, www.xiashuwu.com 最简单的。想做中文的或英文的都可以。对我来说都一样!
大佬,根据您的教程,进行采集的时候提示“获取关联页出错”会是哪里的问题呢?
那就是没设置对,你可以加我联系方式。发我详细情况。这么简单聊不知道是神门情况额这样