批量URL采集

我们想要采集类似结构的网页, 如:

以Yelp为例,. 在 详情页采集]中, 我们已经定义了如何采集Yelp的一个具体餐厅信息. 现在我们有一批餐厅地址:

https://www.yelp.com/biz/the-table-san-jose
https://www.yelp.com/biz/3rd-and-bourbon-san-jose-2
https://www.yelp.com/biz/kings-fish-house-san-jose-san-jose
https://www.yelp.com/biz/paper-plane-san-jose-2
https://www.yelp.com/biz/%C3%A9lyse-restaurant-san-jose-2

改造规则:

点击打开网址右侧的 ( ) 图标, 为网址输入设定一个参数.表示接受参数化输入接口.

在参数设置对话框中:

  • 参数名称: 必须. 会显示在规则启动窗口中
  • 参数可选值: 可选。一旦设定,则输入的参数值只能是这儿列举出来的值之一
  • 默认值: 必须。参数的默认值.如果设定了参数可选值,则默认值也必须是可选值之一。

保存并启动规则, 其界面变化如下

参数输入方式 UI 说明
单个输入 一次输入一个规则的各个参数组合。
批量输入 一次可以输入多个规则的参数组合

这儿我们选择‘批量输入’, 而后将URL列表复制到输入框中。采集结果如下所示