火车头采集与wordpress联动
本文最后更新于 54 天前,如有失效请评论区留言。

如果你是一名wordpress站主并且希望自己的网站能够自动上传一些文章,那么这篇文章或许对你有所帮助。

准备工作

名称下载链接
wordpress6.3.2Download | WordPress.org China 简体中文
火车头采集V10.24火车采集器最新版免费下载_火车采集器V10版下载-火车采集器官网 (locoy.com)
ripro-v2插件需要魔法

解压ripro-v2压缩包里面有两个文件,一个是Locoy.php,一个后缀名为.wpm,前者可以将火车头采集中你所定义抓取的数据直接入库MySQL,将此文件放在网站的根目录,后者可以理解为wordpress与火车头采集连接的驱动,将此文件放入火车头采集下的Module文件夹下。

这样我们的准备工作就做好了。

数据采集

我们打开火车头采集,新建分组,然后新建任务。

接下来会让我们编辑任务,大致分为三部分。首先是网址采集规则,火车头采集需要定位到你想要获取数据的网址。我这里以我的网站为例,填写网址后,需要从源代码中获取超链接,我们可以自动获取地址链接,也可以手动获取规则获取。

这里注意,手动获取规则的方法就是将公有的html提取并将变化的链接使用[参数]作为标识,测试产生的链接就会自动在后面拼接。

接下来就是内容采集规则,我们可以自定义你想要的标签,这些标签都做为变量来动态获取不同链接里的值,我这里只有简单的文章标题和文章内容。

有了标签以后,我们需要定义规则来获取相应的值,以标题为例,双击标题。这里有很多提取方式,前后截取、正则提取等等,一般来说前两种已经够用了。这里演示的是前后截取,顾名思义,就是把开始的地方放在开头字符串,结尾的地方放在结尾字符串。需要注意的是,因为href属性是变化的,所以我们使用(*)来作为占位符,表示这个地方的值是不固定的。

最后一步就是将你获取的数据发布,这里有三种,最简单的两种,就是导入数据库和保存为本地文件,前者需要编写简单的sql语句,后者的话你可以选择你想要的导出格式,我们这里演示的是web在线发布。

新建一个发布配置,在里面我们可以找到我们放在module下的riprov2这个插件,这个插件里面是不用设置的,里面是插件的作者定义好的。

这里需要注意的是全局变量,简单来说这个全局变量相当于一个密码,它对应我们网站根目录下Locoy.php里的$secretWord变量,两者一致就行。

我觉得比较贴心的一点是我们可以动态地获取你网站里面分类的id和分类名称,这样就可以直接发布在此分类下,无需多余的操作,前提是你的参数填写正确,这也是判断你操作是否正确的依据。

接下来我们就执行任务,看结果。

可以看到日志并没有报错,其实可以发现在数据量很小的时候执行时间比较慢,这里我们可以去设置线程数,分为采集内容和发布内容,里面有两个参数,一个是线程数,这个要根据本地服务器的配置去决定,大伙可以上网查一查,之前做java开发的时候,是按照如果是CPU密集型任务使用CPU核数+1,如果是IO密集型任务使用CPU核数*2。间隔时间的话就是每执行一条中间的空白时间。

最后我们看一下wordpress网站后台是否正常发布了文章。

一切正常,不过文章的状态为草稿状态,我们可以自行点击至发布状态,也可以通过sql语句改变,相信这对大家不是问题,因为接触的时间比较短,所以我的看法也比较拙劣,如果大家有更好的想法,欢迎在评论区发言,大伙一起讨论!

版权声明:除特殊说明,博客文章均为1017498761原创,依据CC BY-SA 4.0许可证进行授权,转载请附上出处链接及本声明。
暂无评论

发送评论 编辑评论


				
|´・ω・)ノ
ヾ(≧∇≦*)ゝ
(☆ω☆)
(╯‵□′)╯︵┴─┴
 ̄﹃ ̄
(/ω\)
∠( ᐛ 」∠)_
(๑•̀ㅁ•́ฅ)
→_→
୧(๑•̀⌄•́๑)૭
٩(ˊᗜˋ*)و
(ノ°ο°)ノ
(´இ皿இ`)
⌇●﹏●⌇
(ฅ´ω`ฅ)
(╯°A°)╯︵○○○
φ( ̄∇ ̄o)
ヾ(´・ ・`。)ノ"
( ง ᵒ̌皿ᵒ̌)ง⁼³₌₃
(ó﹏ò。)
Σ(っ °Д °;)っ
( ,,´・ω・)ノ"(´っω・`。)
╮(╯▽╰)╭
o(*////▽////*)q
>﹏<
( ๑´•ω•) "(ㆆᴗㆆ)
😂
😀
😅
😊
🙂
🙃
😌
😍
😘
😜
😝
😏
😒
🙄
😳
😡
😔
😫
😱
😭
💩
👻
🙌
🖕
👍
👫
👬
👭
🌚
🌝
🙈
💊
😶
🙏
🍦
🍉
😣
Source: github.com/k4yt3x/flowerhd
颜文字
Emoji
小恐龙
花!
上一篇
下一篇