数据管道


与工作流一起,我们可以使数据在配方中作为管道流动。 通过数据管道,我们可以实现这样的场景:

  • 一个规则负责监控目标网页中的任何新数据,第二个规则以增量方式抓取新数据
  • 异常退出造成的断点继续抓取。

数据管道背后的逻辑看起来像瀑布:

这里第一个规则从网站1抓取数据,将数据存储到累积数据表1,并将新数据存储到增量数据表1。然后第二个配方从增量数据表1中读取数据,并进一步抓取数据。 一旦增量数据表 1 中的一行处理完毕,规则2 会将其从增量数据表 1 中删除。因此,只有通过规则1 新增的数据才会被规则2 处理。 规则2抓取的数据也可以保存到第二累积数据表和第二增量数据表中,管道可以连接到另一个规则进行增量数据抓取。 实现管道很容易: (1) 对于之前的规则,保存规则时,设置'数据存入'的数据表,设置去重字段,并声明'增量存到'的数据表。

(2) 对于下一个规则,选择上一个规则的增量表作为输入,并且在启动规则时,勾选“一旦处理就删除输入参数行”。