controller())=>' menu-open cur-menu'); $curSubm=array(strtolower(request()->action())=>' menu-open cur-menu'); ?>

将所有页面源码中的相对地址转换成绝对地址(包含超链接、图片、JS链接等)

默认将已采集网址排重过滤,选择“是”允许重复采集

网址中如果存在中文、特殊字符和空格会导致抓取失败,需要对中文、特殊字符和空格进行转码才能正常解析

通常情况下网址中有锚点(#)和无锚点解析出的内容是相同的,为避免采集到重复内容可去除网址锚点

以哪种顺序采集内容页网址,默认按正常顺序采集

需先配置页面渲染,可自动加载ajax内容,注意:渲染后的html源码与未渲染时的不相同,html的变动可能会导致原来的规则失效!

使用正则规则时进行以上模式匹配,默认情况下仅忽略大小写

采集前置页、起始页、多级页、内容页和关联页时使用请求头信息

名称 删除

添加新的或者覆盖已有的请求头信息

下载图片时使用请求头

默认使用采集器设置»请求头信息»抓取页面中的配置(受全局开启状态影响)

名称 删除

添加新的或者覆盖已有的请求头信息

下载文件时使用请求头

默认使用采集器设置»请求头信息»抓取页面中的配置(受全局开启状态影响)

名称 删除

添加新的或者覆盖已有的请求头信息

名称 内容标签 操作

起始页列表

添加起始网址作为抓取入口

抓取分页时发送请求,默认使用“»请求网址”的配置(受开启状态影响)会被“自定义请求网址”中的选项修改

抓取分页时执行页面渲染,默认使用“»执行页面渲染”的配置(受开启状态影响)会被“自定义执行页面渲染”中的选项修改

抓取分页时发送请求,默认使用“»请求网址”的配置(受开启状态影响)会被“自定义请求网址”中的选项修改

抓取分页时执行页面渲染,默认使用“»执行页面渲染”的配置(受开启状态影响)会被“自定义执行页面渲染”中的选项修改

class="panel-collapse collapse in" aria-expanded="true"class="panel-collapse collapse" aria-expanded="false">
  • xpath语法
  • 格式 a.b.c
    通配符 *

规则中无标签时,自动将完全匹配的值保存为标签以供拼接调用 XPATH匹配到的值自动保存为标签以供拼接调用 JSON匹配到的值自动保存为标签以供拼接调用

>
class="panel-collapse collapse" aria-expanded="false"class="panel-collapse collapse in" aria-expanded="true">
必须包含
正则
不能包含
正则

抓取分页时发送请求,默认使用“»请求网址”的配置(受开启状态影响)会被“自定义请求网址”中的选项修改

抓取分页时执行页面渲染,默认使用“»执行页面渲染”的配置(受开启状态影响)会被“自定义执行页面渲染”中的选项修改

class="panel-collapse collapse in" aria-expanded="true"class="panel-collapse collapse" aria-expanded="false">
  • xpath语法
  • 格式 a.b.c
    通配符 *

规则中无标签时,自动将完全匹配的值保存为标签以供拼接调用 XPATH匹配到的值自动保存为标签以供拼接调用 JSON匹配到的值自动保存为标签以供拼接调用

>
class="panel-collapse collapse" aria-expanded="false"class="panel-collapse collapse in" aria-expanded="true">
必须包含
正则
不能包含
正则

抓取分页时发送请求,默认使用“»请求网址”的配置(受开启状态影响)会被“自定义请求网址”中的选项修改

抓取分页时执行页面渲染,默认使用“»执行页面渲染”的配置(受开启状态影响)会被“自定义执行页面渲染”中的选项修改

class="panel-collapse collapse in" aria-expanded="true"class="panel-collapse collapse" aria-expanded="false">
  • xpath语法
  • 格式 a.b.c
    通配符 *

规则中无标签时,自动将完全匹配的值保存为标签以供拼接调用 XPATH匹配到的值自动保存为标签以供拼接调用 JSON匹配到的值自动保存为标签以供拼接调用

>
class="panel-collapse collapse" aria-expanded="false"class="panel-collapse collapse in" aria-expanded="true">
必须包含
正则
不能包含
正则

抓取分页时发送请求,默认使用“»请求网址”的配置(受开启状态影响)会被“自定义请求网址”中的选项修改

抓取分页时执行页面渲染,默认使用“»执行页面渲染”的配置(受开启状态影响)会被“自定义执行页面渲染”中的选项修改

抓取分页时发送请求,默认使用“»请求网址”的配置(受开启状态影响)会被“自定义请求网址”中的选项修改

抓取分页时执行页面渲染,默认使用“»执行页面渲染”的配置(受开启状态影响)会被“自定义执行页面渲染”中的选项修改

添加默认
字段 数据来源 获取方式 操作 内容排重
元素
内容
数据处理
页面 区域 网址 提取
controller()=>' current'); ?>
1
2
3