字段属性

一旦选择了字段元素,NDS 可以帮助从元素中提取各种属性。 以下是您可以在“属性”下拉选择框中使用的内置属性。

内置属性

  • 默认属性

    默认属性用于根据元素的类型提取目标元素的内容。 例如 如果目标元素是输入,则返回输入框的值; 如果目标元素是选择,则返回选择的选项文本;

    通常默认属性适用于大多数元素。

    这里默认属性的结果与直接文本属性的结果相同。

  • 直接文本

    返回所选元素的内部文本。

  • HTML代码

    返回所选元素的外部 HTML 代码。

  • 链接网址

    如果所选元素是 A 元素,则返回元素的 HREF 属性(url 地址)。

    对于网页上的某些元素,鼠标移动到它上面时光标会是指针,但元素本身不是A元素。 因此 NDS 无法提取此类元素的链接 URL。

  • 图片地址

    如果所选元素是 图像元素(img url)、视频元素(video url)或 iFrame 元素(iframe url),则返回元素的 SRC 属性

  • 图片的文件名

    如果所选元素是 图像元素且文件名存在,则返回图像名称。

  • 元素背景图片地址

    如果图像不是由 IMG元素呈现,而是由元素上的 CSS 呈现,则使用此属性提取背景图像 URL。

  • 邮箱*

    提取所选元素内容中的所有电子邮件地址。

  • OCR-数字&点&逗号*

    当元素的内容被加密或编码时,您可以使用 OCR 来识别内容。

    该属性是将元素内容识别为数字。

    例如,页面上的价格元素使用自定义字体进行编码。 所以提取元素的默认属性(或直接文本)不会返回我们想要的。

    我们把属性改成OCR-数字&点&逗号*,然后点击预览图标( ). 现在预览表上的价格列标题旁边有一个 OCR 按钮。

    单击 OCR 按钮,NDS 将执行 OCR 以识别字段的前 3 个元素。

    如果 OCR 结果正确,则配方将按照相同的步骤在抓取时识别所有字段。

  • OCR-英文*

    将元素内容识别为英文文本。

  • OCR-简体中文*

    将元素内容识别为简单中文文本。

NOTE: 这里OCR提取的结果受页面布局、屏幕分辨率等多种因素影响。 在将其用于配方之前,您最好先预览 OCR 结果。

自定义属性

除上述所有内置属性外,您可以在此处输入所选元素的任意属性名称,以提取相应的值。

选择字段属性后,单击预览图标( ) 在编辑框旁边,NDS 会在当前网页上显示当前节点的抓取结果。

固定字段值

如果你想在一个字段中放置一个固定值,而不是从元素中提取内容,你可以让元素为空,直接将值放入'默认'输入框中。

如果你想在保存到输出表之前处理从目标元素中提取的值,你可以参考“数据转换”部分了解更多细节