详情页采集
采集详情页是数据采集中很基础的一步。这儿我们以Yelp的GrandView餐厅为例进行采集: https://www.yelp.com/biz/the-grandview-restaurant-san-jose
第一步: 打开网址,并决定想要采集的内容.
这儿我们希望能采集餐厅的名称、网址、电话和地址
第二部: 启动NDS,点击‘高级采集’,在弹窗中选择'采集单页信息'模板
该模板会自动生成两个节点:
- 开始 : 一个关联节点, 默认带有‘打开网址’动作, 并且以当前网址为动作的参数.
- 详情1: 一个详情节点,带有一个空的字段.
第三步: 为每一个字段选择页面上对应的元素
更多关于如何使用元素选择器,请参见元素查找器详解
第四步: 决定是否需要深度采集
这儿我们可以点击某个字段来打开新的页面,并在新的页面上继续采集;或者我们可以直接进入下一节点, 在当前页面上执行下一节点的采集任务
如果决定深入采集,则点击底部的‘下一步’按钮, NDS会提示您创建新的节点。更多关于导航的信息, 请参见 导航详解
第五步: 点击‘完成’按钮,保存规则。
如果有必须的配置缺失,则NDS会弹窗提示您,请按照提示找到对应的节点-标签页做修改。
例如:
其中提示在节点'List1':
- Data标签页中, block元素确实; Field1's 元素 and 默认值 两者至少需要一个
- Pages标签页中, 选定了点击翻页按钮,但是按钮没有指定
如果点击‘继续’,则规则将保存为草稿。草稿规则都以( ) 图标开始。