批量URL采集
我们想要采集类似结构的网页, 如:
多个列表页,可以方便的构建每个列表页的地址 如:
https://www.xxx.com/result?pageNo=1
https://www.xxx.com/result?pageNo=2
https://www.xxx.com/result?pageNo=3
https://www.xxx.com/result?pageNo=4
可以构建每个产品的详情页地址 如:
https://www.xxx.com/list?productId=A001
https://www.yyy.com/list?productId=A002
https://www.yyy.com/list?productId=A003
https://www.yyy.com/list?productId=A004
以Yelp为例,. 在 详情页采集]中, 我们已经定义了如何采集Yelp的一个具体餐厅信息. 现在我们有一批餐厅地址:
https://www.yelp.com/biz/the-table-san-jose
https://www.yelp.com/biz/3rd-and-bourbon-san-jose-2
https://www.yelp.com/biz/kings-fish-house-san-jose-san-jose
https://www.yelp.com/biz/paper-plane-san-jose-2
https://www.yelp.com/biz/%C3%A9lyse-restaurant-san-jose-2
改造规则:
点击打开网址右侧的 ( ) 图标, 为网址输入设定一个参数.表示接受参数化输入接口.
在参数设置对话框中:
- 参数名称: 必须. 会显示在规则启动窗口中
- 参数可选值: 可选。一旦设定,则输入的参数值只能是这儿列举出来的值之一
- 默认值: 必须。参数的默认值.如果设定了参数可选值,则默认值也必须是可选值之一。
保存并启动规则, 其界面变化如下
参数输入方式 | UI | 说明 |
---|---|---|
单个输入 | 一次输入一个规则的各个参数组合。 | |
批量输入 | 一次可以输入多个规则的参数组合 |
这儿我们选择‘批量输入’, 而后将URL列表复制到输入框中。采集结果如下所示