深度采集

上一章节我们介绍了如何采集列表页。 这儿我们介绍如何采集列表页,以及每一个列表项的深入采集。

以亚马逊为例 列表页: https://www.amazon.com/Smart-Watch-Accessories/b/ref=dp_bc_aui_C_3?ie=UTF8&node=7939902011

以及列表中的第一项作为详情页的例子.

这儿我们重复列表采集的1到5步 列表采集

而后

第六步: 点击底部导航的‘下一步’进入‘深入采集’标签页.

这儿有三个选项(如果本节点不是最后一个节点, 则没有‘不再深入采集’选项).

这儿有一个简单的方法来协助如何选择:

  1. 我们需要深入采集,或者其他动作要做吗?
    1. 如果不需要, 则选择‘不再深入采集’
  2. 我们需要点击当前页的某个元素来做什么采集吗?
    1. 如果是, 选择‘点击[某个字段]深入采集,并选定对应需要点击的字段
  3. 对点击后的页面, 我们希望在新标签中打开吗?
    1. 如果是, 选上‘新开标签页’。此时NDS会尽量 打开新的标签页. 但是 并不能保证打开的标签页,因为有些网站可能不允许.
  4. 我们想要继续深入采集,但是不需要任何点击操作?
    1. 如果是, 选择‘自动深入采集’

这儿我们描述一些导航使用的场景:

  • 在一个列表页上,除了块和字段这些重复的元素外,我们还想采集一些一次性的元素。我们可以创建两个采集节点:

    • 第一个 - 详情节点:
      • 采集那些一次性的元素,
      • ‘自动深入采集’
    • 第二个 - 列表节点:

      • 采集所有重复的字段元素

      这儿第一个节点到第二个节点的导航是‘自动深入采集’,所以两个节点都是工作在同一个页面上。


  • 在一个列表页上,我们想要点击每个列表项的标题进入详情页采集。我们可以创建两个采集节点:

    • 第一个 - 列表节点:
      • 采集所有重复的字段元素
      • 导航:点击[某个字段]深入采集;将标题选择点击字段
    • 第二个 - 详情节点:

      • 抽取详情页上的字段

      这儿列表节点工作在列表页上, 详情节点工作在详情页上。

  • 在一个列表页上, 我们需要点击每一项的标题,但是详情页装载慢,所以希望等到详情页内的某个元素装载完成后才开始采集。我们可以创建3个节点 :

    • 第一个 - 列表节点:
      • 采集所有重复的字段元素
      • 导航:点击[某个字段]深入采集;将标题选择点击字段
      • 第二个 - 关联节点:
    • 经过第一个节点导航的点击后,本节点工作在详情页上。可以添加等待元素出现的指令
      • 第三个 - 详情节点:
      • 抽取详情页上的字段


    这儿关联节点,会像判定详情页的元素已经出现,而后再跳到详情节点进行执行。

继续点击底部的‘下一步’导航按钮, NDS会提示我们创建下一个节点。

第七步: 现在一个新的节点已经创建,我们可以按照需要进行定义和操作。而后可以按需继续添加新的节点。