crawlab/gitbook/Usage/Spider/ConfigurableSpider.md

## 可配置爬虫

可配置爬虫是版本[v0.2.1](https://github.com/tikazyq/crawlab/releases/tag/v0.2.1)开发的功能。目的是将具有相似网站结构的爬虫项目可配置化，将开发爬虫的过程流程化，大大提高爬虫开发效率。

Crawlab的可配置爬虫是基于Scrapy的，因此天生支持并发。而且，可配置爬虫完全支持[自定义爬虫](/Usage/Spider/CustomizedSpider)的一般功能，因此也支持任务调度、任务监控、日志监控、数据分析。

### 添加爬虫

在`侧边栏`点击`爬虫`导航至`爬虫列表`，点击**添加爬虫**按钮。

![爬虫列表](https://user-gold-cdn.xitu.io/2019/5/27/16af74ec408111a7?w=1662&h=702&f=png&s=98898)

点击**可配置爬虫**。

![爬虫列表-添加爬虫](https://user-gold-cdn.xitu.io/2019/5/27/16af74f4c75346da?w=1667&h=703&f=png&s=92067)

输入完基本信息，点击**添加**。

![爬虫列表-爬虫信息](https://user-gold-cdn.xitu.io/2019/5/27/16af751c5d8d984d?w=1666&h=688&f=png&s=90926)

### 配置爬虫

添加完成后，可以看到刚刚添加的可配置爬虫出现了在最下方，点击**查看**进入到**爬虫详情**。

![](https://user-gold-cdn.xitu.io/2019/5/27/16af754c6f000698?w=1645&h=739&f=png&s=103908)

点击**配置**标签进入到配置页面。接下来，我们需要对爬虫规则进行配置。

![](https://user-gold-cdn.xitu.io/2019/5/27/16af756d003eae66?w=1659&h=726&f=png&s=92224)

这里已经有一些配置好的初始输入项。我们简单介绍一下各自的含义。

#### 抓取类别

这也是爬虫抓取采用的策略，也就是爬虫遍历网页是如何进行的。作为第一个版本，我们有**仅列表**、**仅详情页**、**列表+详情页**。
- 仅列表页。这也是最简单的形式，爬虫遍历列表上的列表项，将数据抓取下来。
- 仅详情页。爬虫只抓取详情页。
- 列表+详情页。爬虫先遍历列表页，将列表项中的详情页地址提取出来并跟进抓取详情页。

这里我们选择**列表+详情页**。

#### 列表项选择器 & 分页选择器

列表项的匹和分页按钮的匹配查询，由CSS或XPath来进行匹配。

#### 开始URL

爬虫最开始遍历的网址。

#### 遵守Robots协议

这个默认是开启的。如果开启，爬虫将先抓取网站的robots.txt并判断页面是否可抓；否则，不会对此进行验证。用户可以选择将其关闭。请注意，任何无视Robots协议的行为都有法律风险。

#### 列表页字段 & 详情页字段

这些都是再列表页或详情页中需要提取的字段。字段由CSS选择器或者XPath来匹配提取。可以选择文本或者属性。

在检查完目标网页的元素CSS选择器之后，我们输入列表项选择器、开始URL、列表页/详情页等信息。注意勾选url为详情页URL。

![](https://user-gold-cdn.xitu.io/2019/5/27/16af7685423c7d57?w=1653&h=873&f=png&s=117230)

点击保存、预览，查看预览内容。

![](https://user-gold-cdn.xitu.io/2019/5/27/16af769811d7bd0c?w=1720&h=663&f=png&s=123762)