Files
crawlab/gitbook/Usage/Spider/CustomizedSpider.md
Marvin Zhang 99ccee9d50 updated docs
2019-06-16 12:54:36 +08:00

32 lines
1.7 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters
This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.
## 自定义爬虫
自定义爬虫是指用户可以添加的任何语言任何框架的爬虫高度自定义化。当用户添加好自定义爬虫之后Crawlab就可以将其集成到爬虫管理的系统中来。
自定义爬虫的添加有两种方式:
1. 通过Web界面上传爬虫
2. 通过创建项目目录
### 通过Web界面上传
在通过Web界面上传之前需要将爬虫项目文件打包成`zip`格式。
![](https://crawlab.oss-cn-hangzhou.aliyuncs.com/gitbook/spider-list.png)
然后,在`侧边栏`点击`爬虫`导航至`爬虫列表`,点击`添加爬虫`按钮,选择`自定义爬虫`,点击`上传`按钮,选择刚刚打包好的`zip`文件。上传成功后,`爬虫列表`中会出现新添加的自定义爬虫。这样就算添加好了。
这个方式稍微有些繁琐,但是对于无法轻松获取服务器的读写权限时是非常有用的,适合在生产环境上使用。
### 通过添加项目目录
Crawlab会自动发现`PROJECT_SOURCE_FILE_FOLDER`目录下的所有爬虫目录并将这些目录生成自定义爬虫并集成到Crawlab中。因此将爬虫项目目录拷贝到`PROJECT_SOURCE_FILE_FOLDER`目录下,就可以添加一个爬虫了。
这种方式非常方便,但是需要获得主机服务器的读写权限,因而比较适合在开发环境上采用。
### 配置爬虫
在定义爬虫中,我们需要配置一下`执行命令`(运行爬虫时后台执行的`shell`命令)和`结果集`(通过`CRAWLAB_COLLECTION`传递给爬虫程序,爬虫程序存储结果的地方),然后点击`保存`按钮保存爬虫信息。
![](https://crawlab.oss-cn-hangzhou.aliyuncs.com/gitbook/spider-detail-overview.png)
接下来,我们就可以部署、运行自定义爬虫了。