重复数据删除

重复数据删除是指过滤掉爬取过程中可能遇到的重复数据。

创建新的输出表时,您可以选择一个或多个字段作为主键,以过滤重复项。 在屏幕截图中,我们选择“名称”和“链接”字段作为主键。

在 NDS 中,每个数据表可以接受多个规则来存储抓取的数据。 配置的 unqiue 字段用作所有规则的过滤器,这些规则将数据保存到表中。

一旦数据表配置了唯一字段,您将无法再次对其进行编辑。 要更改唯一字段,您可以重命名“保存到”以创建一个新表并在规则保存对话框中为该表设置新的主键。

注意: 启动时更改输出数据表名称不会影响唯一字段。 旧的唯一字段(如果存在)将自动应用于新数据表。