实时增量采集数据的一般方法

2024-10-13 08:49:19

1、实时监控更新和采集内容原理:首先在一台监控主机上运行监控软件,汰拶珏茧监控各网站的内容更新。当发现更新后,立即将更新的新闻标题和链接发送到采集主机。当采集主机收到新闻链接后,自动使用浏览器打开网页,采集新闻标题和正文内容,然后保存到数据库或导出Excel表格文件,也可以再填表提交到其它系统。其中监控主机和采集主机可以分别部署在不同电脑上,也可以部署在同一台电脑上,它们通过网络接口实现数据传递。

实时增量采集数据的一般方法

3、在监控报警选项卡中,勾选“发送链接到外部网络接口”,并设置接收端的ip地址和端口号,此处为采集主机的ip地址127.0.0.1,和正在监听的端口8888。当监控到任意网站更新后,会将更新的内容和链接一并发送出去。

实时增量采集数据的一般方法

5、打开浏览器的项目管理器,创建自动控制项目。首先新建一个打开网页的步骤,在输入网址的控件中点击鼠标右键,选择外部变量@link,也就是从监控主机上接收数据中的链接参数。项目执行时自动打开这个内容网址。

实时增量采集数据的一般方法

7、创建一个信息抓取步骤,从网页中抓取标题和正文内容。将以变量的形式保存在软件中。按同样的方法创建每个网站的数据抓取步骤以及抓取内容参数。在这里,也可以增加分析过滤信息内容,判断不需要的无关内容,终止采集和保存。

实时增量采集数据的一般方法

9、如何把采集的数据保存到Excel表格文件,创建“保存数据”步骤,选择保存为Excel格式,输入保存路径和文件名,点击设置内容按钮,可以选择需要保存的变量,这里选择标题和正文即可。

实时增量采集数据的一般方法

11、创建填写内容步骤,在表单对应的输入框中填写内容。首先获取输入框元素,填写内容框中点击鼠标右键,选择需要输入的变量。

实时增量采集数据的一般方法
猜你喜欢