updated docs

2026-01-30 18:00:56 +01:00 · 2019-06-16 12:54:36 +08:00
parent 2878220cdc
commit 99ccee9d50
79 changed files with 17571 additions and 248 deletions
--- a/gitbook/Usage/Node/Edit.md
+++ b/gitbook/Usage/Node/Edit.md
@@ -0,0 +1,9 @@
+## 修改节点信息
+
+后面我们需要让爬虫运行在各个节点上，需要让主机与节点进行通信，因此需要知道节点的IP地址和端口。我们需要手动配置一下节点的IP和端口。在`节点列表`中点击`操作`列里的蓝色查看按钮进入到节点详情。节点详情样子如下。
+
+![](https://crawlab.oss-cn-hangzhou.aliyuncs.com/gitbook/node-detail.png)
+
+在右侧分别输入该节点对应的`节点IP`和`节点端口`，然后点击`保存`按钮，保存该节点信息。
+
+这样，我们就完成了节点的配置工作。
--- a/gitbook/Usage/Node/README.md
+++ b/gitbook/Usage/Node/README.md
@@ -0,0 +1,6 @@
+## 节点
+
+节点其实就是Celery中的Worker。一个节点运行时会连接到一个任务队列（例如Redis）来接收和运行任务。所有爬虫需要在运行时被部署到节点上，用户在部署前需要定义节点的IP地址和端口（默认为`localhost:8000`）。
+
+1. [查看节点](/Usage/Node/View.md)
+2. [修改节点信息](/Usage/Node/Edit.md)
--- a/gitbook/Usage/Node/View.md
+++ b/gitbook/Usage/Node/View.md
@@ -0,0 +1,5 @@
+## 查看节点列表
+
+点击`侧边栏`的`节点`导航至`节点列表`，可以看到已上线的节点。这里的节点其实就是已经运行起来的`celery worker`，他们通过连接到配置好的`broker`（通常是`redis`）来进行与主机的通信。
+
+![](https://crawlab.oss-cn-hangzhou.aliyuncs.com/gitbook/node-list.png)
--- a/gitbook/Usage/README.md
+++ b/gitbook/Usage/README.md
@@ -0,0 +1,6 @@
+本小节将介绍如何使用Crawlab，包括如下内容：
+
+1. [节点](/Usage/Node/README.md)
+2. [爬虫](/Usage/Spider/README.md)
+3. [任务](/Usage/Task/README.md)
+4. [定时任务](/Usage/Schedule/README.md)
--- a/gitbook/Usage/Schedule/README.md
+++ b/gitbook/Usage/Schedule/README.md
--- a/gitbook/Usage/Site/README.md
+++ b/gitbook/Usage/Site/README.md
--- a/gitbook/Usage/Spider/Analytics.md
+++ b/gitbook/Usage/Spider/Analytics.md
@@ -0,0 +1,7 @@
+## 统计数据
+
+在运行了一段时间之后，爬虫会积累一些统计数据，例如`运行成功率`、`任务数`、`运行时长`等指标。Crawlab将这些指标汇总并呈现给开发者。
+
+要查看统计数据的话，只需要在`爬虫详情`中，点击`分析`标签，就可以看到爬虫的统计数据了。
+
+![](https://crawlab.oss-cn-hangzhou.aliyuncs.com/gitbook/spider-detail-analytics.png)
--- a/gitbook/Usage/Spider/ConfigurableSpider.md
+++ b/gitbook/Usage/Spider/ConfigurableSpider.md
@@ -0,0 +1,64 @@
+## 可配置爬虫
+
+可配置爬虫是版本[v0.2.1](https://github.com/tikazyq/crawlab/releases/tag/v0.2.1)开发的功能。目的是将具有相似网站结构的爬虫项目可配置化，将开发爬虫的过程流程化，大大提高爬虫开发效率。
+
+Crawlab的可配置爬虫是基于Scrapy的，因此天生支持并发。而且，可配置爬虫完全支持[自定义爬虫](/Usage/Spider/CustomizedSpider)的一般功能，因此也支持任务调度、任务监控、日志监控、数据分析。
+
+### 添加爬虫
+
+在`侧边栏`点击`爬虫`导航至`爬虫列表`，点击**添加爬虫**按钮。
+
+![爬虫列表](https://user-gold-cdn.xitu.io/2019/5/27/16af74ec408111a7?w=1662&h=702&f=png&s=98898)
+
+点击**可配置爬虫**。
+
+![爬虫列表-添加爬虫](https://user-gold-cdn.xitu.io/2019/5/27/16af74f4c75346da?w=1667&h=703&f=png&s=92067)
+
+输入完基本信息，点击**添加**。
+
+![爬虫列表-爬虫信息](https://user-gold-cdn.xitu.io/2019/5/27/16af751c5d8d984d?w=1666&h=688&f=png&s=90926)
+
+### 配置爬虫
+
+添加完成后，可以看到刚刚添加的可配置爬虫出现了在最下方，点击**查看**进入到**爬虫详情**。
+
+![](https://user-gold-cdn.xitu.io/2019/5/27/16af754c6f000698?w=1645&h=739&f=png&s=103908)
+
+点击**配置**标签进入到配置页面。接下来，我们需要对爬虫规则进行配置。
+
+![](https://user-gold-cdn.xitu.io/2019/5/27/16af756d003eae66?w=1659&h=726&f=png&s=92224)
+
+这里已经有一些配置好的初始输入项。我们简单介绍一下各自的含义。
+
+#### 抓取类别
+
+这也是爬虫抓取采用的策略，也就是爬虫遍历网页是如何进行的。作为第一个版本，我们有**仅列表**、**仅详情页**、**列表+详情页**。
+- 仅列表页。这也是最简单的形式，爬虫遍历列表上的列表项，将数据抓取下来。
+- 仅详情页。爬虫只抓取详情页。
+- 列表+详情页。爬虫先遍历列表页，将列表项中的详情页地址提取出来并跟进抓取详情页。
+
+这里我们选择**列表+详情页**。
+
+#### 列表项选择器 & 分页选择器
+
+列表项的匹和分页按钮的匹配查询，由CSS或XPath来进行匹配。
+
+#### 开始URL
+
+爬虫最开始遍历的网址。
+
+#### 遵守Robots协议
+
+这个默认是开启的。如果开启，爬虫将先抓取网站的robots.txt并判断页面是否可抓；否则，不会对此进行验证。用户可以选择将其关闭。请注意，任何无视Robots协议的行为都有法律风险。
+
+#### 列表页字段 & 详情页字段
+
+这些都是再列表页或详情页中需要提取的字段。字段由CSS选择器或者XPath来匹配提取。可以选择文本或者属性。
+
+在检查完目标网页的元素CSS选择器之后，我们输入列表项选择器、开始URL、列表页/详情页等信息。注意勾选url为详情页URL。
+
+![](https://user-gold-cdn.xitu.io/2019/5/27/16af7685423c7d57?w=1653&h=873&f=png&s=117230)
+
+点击保存、预览，查看预览内容。
+
+![](https://user-gold-cdn.xitu.io/2019/5/27/16af769811d7bd0c?w=1720&h=663&f=png&s=123762)
--- a/gitbook/Usage/Spider/Create.md
+++ b/gitbook/Usage/Spider/Create.md
@@ -0,0 +1,7 @@
+## 创建爬虫
+
+Crawlab允许用户创建两种爬虫：
+1. [自定义爬虫](/Usage/Spider/CustomizedSpider.md)
+2. [可配置爬虫](/Usage/Spider/ConfigurableSpider.md)
+
+前者可以通过Web界面和创建项目目录的方式来添加，后者由于没有源代码，只能通过Web界面来添加。
--- a/gitbook/Usage/Spider/CustomizedSpider.md
+++ b/gitbook/Usage/Spider/CustomizedSpider.md
@@ -0,0 +1,31 @@
+## 自定义爬虫
+
+自定义爬虫是指用户可以添加的任何语言任何框架的爬虫，高度自定义化。当用户添加好自定义爬虫之后，Crawlab就可以将其集成到爬虫管理的系统中来。
+
+自定义爬虫的添加有两种方式：
+1. 通过Web界面上传爬虫
+2. 通过创建项目目录
+
+### 通过Web界面上传
+
+在通过Web界面上传之前，需要将爬虫项目文件打包成`zip`格式。
+
+![](https://crawlab.oss-cn-hangzhou.aliyuncs.com/gitbook/spider-list.png)
+
+然后，在`侧边栏`点击`爬虫`导航至`爬虫列表`，点击`添加爬虫`按钮，选择`自定义爬虫`，点击`上传`按钮，选择刚刚打包好的`zip`文件。上传成功后，`爬虫列表`中会出现新添加的自定义爬虫。这样就算添加好了。
+
+这个方式稍微有些繁琐，但是对于无法轻松获取服务器的读写权限时是非常有用的，适合在生产环境上使用。
+
+### 通过添加项目目录
+
+Crawlab会自动发现`PROJECT_SOURCE_FILE_FOLDER`目录下的所有爬虫目录，并将这些目录生成自定义爬虫并集成到Crawlab中。因此，将爬虫项目目录拷贝到`PROJECT_SOURCE_FILE_FOLDER`目录下，就可以添加一个爬虫了。
+
+这种方式非常方便，但是需要获得主机服务器的读写权限，因而比较适合在开发环境上采用。
+
+### 配置爬虫
+
+在定义爬虫中，我们需要配置一下`执行命令`（运行爬虫时后台执行的`shell`命令）和`结果集`（通过`CRAWLAB_COLLECTION`传递给爬虫程序，爬虫程序存储结果的地方），然后点击`保存`按钮保存爬虫信息。
+
+![](https://crawlab.oss-cn-hangzhou.aliyuncs.com/gitbook/spider-detail-overview.png)
+
+接下来，我们就可以部署、运行自定义爬虫了。
--- a/gitbook/Usage/Spider/Deploy.md
+++ b/gitbook/Usage/Spider/Deploy.md
@@ -0,0 +1,10 @@
+## 部署爬虫
+
+这里的爬虫部署是指[自定义爬虫](/Usage/Spider/CustomizedSpider)的部署，因为[可配置爬虫](/Usage/Spider/ConfigurableSpider)已经内嵌到Crawlab中了，所有节点都可以使用，不需要额外部署。简单来说，就是将主机上的爬虫源代码通过`HTTP`的方式打包传输至`worker`节点上，因此节点就可以运行传输过来的爬虫了。
+
+部署爬虫很简单，有三种方式：
+1. 在`爬虫列表`中点击`部署所有爬虫`，将所有爬虫部署到所有在线节点中；
+2. 在`爬虫列表`中点击`操作`列的`部署`按钮，将指定爬虫部署到所有在线节点中；
+3. 在`爬虫详情`的`概览`标签中，点击`部署`按钮，将指定爬虫部署到所有在线节点中。
+
+部署好之后，我们就可以运行爬虫了。
--- a/gitbook/Usage/Spider/README.md
+++ b/gitbook/Usage/Spider/README.md
@@ -0,0 +1,9 @@
+## 爬虫
+
+爬虫就是我们通常说的网络爬虫了，本小节将介绍如下内容：
+
+1. [创建爬虫](/Usage/Spider/Create.md)
+2. [部署爬虫](/Usage/Spider/Deploy.md)
+3. [运行爬虫](/Usage/Spider/Run.md)
+4. [可配置爬虫](/Usage/Spider/ConfigurableSpider.md)
+5. [统计数据](/Usage/Spider/Analytics.md)
--- a/gitbook/Usage/Spider/Run.md
+++ b/gitbook/Usage/Spider/Run.md
@@ -0,0 +1,17 @@
+## 运行爬虫
+
+我们有两种运行爬虫的方式：
+1. 手动触发
+2. 定时任务触发
+
+### 手动触发
+
+1. 在`爬虫列表`中`操作`列点击`运行`按钮，或者
+2. 在`爬虫详情`中`概览`标签下点击`运行`按钮，或者
+3. 对于`自定义爬虫`，可以在`配置`标签下点击`运行`按钮
+
+然后，Crawlab会提示任务已经派发到队列中去了，然后你可以在`爬虫详情`左侧看到新创建的任务。点击`创建时间`可以导航至`任务详情`。
+
+### 定时任务触发
+
+`定时任务触发`是比较常用的功能，对于`增量抓取`或对实时性有要求的任务很重要。这在[定时任务](/Usage/Schedule/README.md)中会详细介绍。
--- a/gitbook/Usage/Task/README.md
+++ b/gitbook/Usage/Task/README.md