如果你是一名wordpress站主并且希望自己的网站能够自动上传一些文章,那么这篇文章或许对你有所帮助。
准备工作
名称 | 下载链接 |
wordpress6.3.2 | Download | WordPress.org China 简体中文 |
火车头采集V10.24 | 火车采集器最新版免费下载_火车采集器V10版下载-火车采集器官网 (locoy.com) |
ripro-v2插件 | 需要魔法 |
解压ripro-v2压缩包里面有两个文件,一个是Locoy.php,一个后缀名为.wpm,前者可以将火车头采集中你所定义抓取的数据直接入库MySQL,将此文件放在网站的根目录,后者可以理解为wordpress与火车头采集连接的驱动,将此文件放入火车头采集下的Module文件夹下。
这样我们的准备工作就做好了。
数据采集
我们打开火车头采集,新建分组,然后新建任务。
接下来会让我们编辑任务,大致分为三部分。首先是网址采集规则,火车头采集需要定位到你想要获取数据的网址。我这里以我的网站为例,填写网址后,需要从源代码中获取超链接,我们可以自动获取地址链接,也可以手动获取规则获取。
这里注意,手动获取规则的方法就是将公有的html提取并将变化的链接使用[参数]作为标识,测试产生的链接就会自动在后面拼接。
接下来就是内容采集规则,我们可以自定义你想要的标签,这些标签都做为变量来动态获取不同链接里的值,我这里只有简单的文章标题和文章内容。
有了标签以后,我们需要定义规则来获取相应的值,以标题为例,双击标题。这里有很多提取方式,前后截取、正则提取等等,一般来说前两种已经够用了。这里演示的是前后截取,顾名思义,就是把开始的地方放在开头字符串,结尾的地方放在结尾字符串。需要注意的是,因为href属性是变化的,所以我们使用(*)来作为占位符,表示这个地方的值是不固定的。
最后一步就是将你获取的数据发布,这里有三种,最简单的两种,就是导入数据库和保存为本地文件,前者需要编写简单的sql语句,后者的话你可以选择你想要的导出格式,我们这里演示的是web在线发布。
新建一个发布配置,在里面我们可以找到我们放在module下的riprov2这个插件,这个插件里面是不用设置的,里面是插件的作者定义好的。
这里需要注意的是全局变量,简单来说这个全局变量相当于一个密码,它对应我们网站根目录下Locoy.php里的$secretWord变量,两者一致就行。
我觉得比较贴心的一点是我们可以动态地获取你网站里面分类的id和分类名称,这样就可以直接发布在此分类下,无需多余的操作,前提是你的参数填写正确,这也是判断你操作是否正确的依据。
接下来我们就执行任务,看结果。
可以看到日志并没有报错,其实可以发现在数据量很小的时候执行时间比较慢,这里我们可以去设置线程数,分为采集内容和发布内容,里面有两个参数,一个是线程数,这个要根据本地服务器的配置去决定,大伙可以上网查一查,之前做java开发的时候,是按照如果是CPU密集型任务使用CPU核数+1,如果是IO密集型任务使用CPU核数*2。间隔时间的话就是每执行一条中间的空白时间。
最后我们看一下wordpress网站后台是否正常发布了文章。
一切正常,不过文章的状态为草稿状态,我们可以自行点击至发布状态,也可以通过sql语句改变,相信这对大家不是问题,因为接触的时间比较短,所以我的看法也比较拙劣,如果大家有更好的想法,欢迎在评论区发言,大伙一起讨论!