Files
crawlab/gitbook/Usage/Spider/ConfigurableSpider.md
Marvin Zhang 99ccee9d50 updated docs
2019-06-16 12:54:36 +08:00

65 lines
3.0 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters
This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.
## 可配置爬虫
可配置爬虫是版本[v0.2.1](https://github.com/tikazyq/crawlab/releases/tag/v0.2.1)开发的功能。目的是将具有相似网站结构的爬虫项目可配置化,将开发爬虫的过程流程化,大大提高爬虫开发效率。
Crawlab的可配置爬虫是基于Scrapy的因此天生支持并发。而且可配置爬虫完全支持[自定义爬虫](/Usage/Spider/CustomizedSpider)的一般功能,因此也支持任务调度、任务监控、日志监控、数据分析。
### 添加爬虫
`侧边栏`点击`爬虫`导航至`爬虫列表`,点击**添加爬虫**按钮。
![爬虫列表](https://user-gold-cdn.xitu.io/2019/5/27/16af74ec408111a7?w=1662&h=702&f=png&s=98898)
点击**可配置爬虫**。
![爬虫列表-添加爬虫](https://user-gold-cdn.xitu.io/2019/5/27/16af74f4c75346da?w=1667&h=703&f=png&s=92067)
输入完基本信息,点击**添加**。
![爬虫列表-爬虫信息](https://user-gold-cdn.xitu.io/2019/5/27/16af751c5d8d984d?w=1666&h=688&f=png&s=90926)
### 配置爬虫
添加完成后,可以看到刚刚添加的可配置爬虫出现了在最下方,点击**查看**进入到**爬虫详情**。
![](https://user-gold-cdn.xitu.io/2019/5/27/16af754c6f000698?w=1645&h=739&f=png&s=103908)
点击**配置**标签进入到配置页面。接下来,我们需要对爬虫规则进行配置。
![](https://user-gold-cdn.xitu.io/2019/5/27/16af756d003eae66?w=1659&h=726&f=png&s=92224)
这里已经有一些配置好的初始输入项。我们简单介绍一下各自的含义。
#### 抓取类别
这也是爬虫抓取采用的策略,也就是爬虫遍历网页是如何进行的。作为第一个版本,我们有**仅列表**、**仅详情页**、**列表+详情页**。
- 仅列表页。这也是最简单的形式,爬虫遍历列表上的列表项,将数据抓取下来。
- 仅详情页。爬虫只抓取详情页。
- 列表+详情页。爬虫先遍历列表页,将列表项中的详情页地址提取出来并跟进抓取详情页。
这里我们选择**列表+详情页**。
#### 列表项选择器 & 分页选择器
列表项的匹和分页按钮的匹配查询由CSS或XPath来进行匹配。
#### 开始URL
爬虫最开始遍历的网址。
#### 遵守Robots协议
这个默认是开启的。如果开启爬虫将先抓取网站的robots.txt并判断页面是否可抓否则不会对此进行验证。用户可以选择将其关闭。请注意任何无视Robots协议的行为都有法律风险。
#### 列表页字段 & 详情页字段
这些都是再列表页或详情页中需要提取的字段。字段由CSS选择器或者XPath来匹配提取。可以选择文本或者属性。
在检查完目标网页的元素CSS选择器之后我们输入列表项选择器、开始URL、列表页/详情页等信息。注意勾选url为详情页URL。
![](https://user-gold-cdn.xitu.io/2019/5/27/16af7685423c7d57?w=1653&h=873&f=png&s=117230)
点击保存、预览,查看预览内容。
![](https://user-gold-cdn.xitu.io/2019/5/27/16af769811d7bd0c?w=1720&h=663&f=png&s=123762)