增量保存
为什么需要增量数据
有几个数据抓取和监控场景需要增量数据保存功能。 例如,
- 定期抓取新闻列表时,我们希望每次都抓取新发布的新闻。
- 在监控产品价格时,我们只想保存价格变化
- 深度抓取时,我们希望在开始时选择出新的 URL,只对新的 URL 进行深度抓取
要过滤掉新数据,并使用其他方法处理这些新数据,我们需要将数据保存在两个表中:
- 累积数据表:帮助检查要抓取的数据是否是新的
- 增量数据表:保存新抓取的数据。所有其他规则在此处处理数据,并在处理后清除数据。
如何配置增量数据保存 保存规则时,在配置“数据存入”数据表和“唯一”字段后,我们可以通过规则运行配置中的“增量存到”设置增量数据表。
在这里我们会发现只有当唯一字段不为空时才可以访问增量输入框。
当指定增量数据表时,NDS 将检查抓取的数据以查看其唯一字段的值是否存在于输出数据表中。 如果否,则该行将存储在此处。
您也可以选中“抓取新数据时通知我”。 因此,当新数据被抓取时,您将收到通知(消息类型在保存对话框的底部配置)。
现在我们有了所有的累积数据和增量数据,要实现页面开头描述的增量抓取,请参考 数据管道