增量保存

为什么需要增量数据

有几个数据抓取和监控场景需要增量数据保存功能。 例如,

  • 定期抓取新闻列表时,我们希望每次都抓取新发布的新闻。
  • 在监控产品价格时,我们只想保存价格变化
  • 深度抓取时,我们希望在开始时选择出新的 URL,只对新的 URL 进行深度抓取

要过滤掉新数据,并使用其他方法处理这些新数据,我们需要将数据保存在两个表中:

  • 累积数据表:帮助检查要抓取的数据是否是新的
  • 增量数据表:保存新抓取的数据。所有其他规则在此处处理数据,并在处理后清除数据。

如何配置增量数据保存 保存规则时,在配置“数据存入”数据表和“唯一”字段后,我们可以通过规则运行配置中的“增量存到”设置增量数据表。

在这里我们会发现只有当唯一字段不为空时才可以访问增量输入框。

当指定增量数据表时,NDS 将检查抓取的数据以查看其唯一字段的值是否存在于输出数据表中。 如果否,则该行将存储在此处。

您也可以选中“抓取新数据时通知我”。 因此,当新数据被抓取时,您将收到通知(消息类型在保存对话框的底部配置)。

现在我们有了所有的累积数据和增量数据,要实现页面开头描述的增量抓取,请参考 数据管道