采集加速
作为浏览器扩展,NDS 使用浏览器的特性进行数据抓取。 因此,任何使浏览器页面加载速度更快的操作也将有助于使 NDS 抓取速度更快。
通过加快页面加载速度来加快抓取速度
- 屏蔽广告
- 如果您不想抓取图像/视频,请阻止它们
- 如果您只想抓取静态内容,请阻止 Javascript
Google WebStore有许多扩展程序可以帮助您实现这一目标。
除了这些方法,还有一些其他的场景:
- 抓取一个搜索结果,继续对每个item做深度抓取,向前和向后导航比较耗时
- 抓取具有相同结构的 URL 列表,我们可以并行抓取多个 URL 吗?
对于第一种场景,我们可以将深度采集规则拆分成几个小的规则,然后将它们集成到工作流中,整个采集过程仍然是自动的。
通过将复杂的规则分成更小的规则来加速抓取
- 步骤1: 创建一个仅抓取搜索结果项的规则。 该规则模拟搜索并进行分页以抓取每个项的基本信息和详细 URL 地址。
- 步骤2:
创建另一个规则以接受第一个规则的输出表作为输入表,在输入表中逐个打开详细信息 URL,并为每个项抓取详细信息。
有关如何创建详细信息抓取的更多详细信息,请参阅 详情页采集
- 步骤3: 更新第一个规则的全局触发器以在第一个规则完成时启动第二个规则。 有关如何将配方集成到工作流程中的更多详细信息,请参阅规则工作流
我们如何将一个复杂的规则分成几个小规则。 这里我们发现第二个规则被重复执行 对于每个 URL。 接下来我们将展示如何并行进行这种重复抓取。
通过并行运行多个配方实例来加速抓取
如果只有一个配方接受参数输入,无论是 URL、关键字还是多个参数,NDS 都可以通过在您自己的浏览器中并行执行来加速它。
您需要做的很简单: 批量输入多个参数行或指定参数输入表; 指定启动规则时要运行的并行实例数;
更多详情请参考 批量采集
该视频演示了如何通过运行多个实例来加速抓取。