mirror of
https://github.com/crawlab-team/crawlab.git
synced 2026-01-22 17:31:03 +01:00
32 lines
1.7 KiB
Markdown
32 lines
1.7 KiB
Markdown
## 自定义爬虫
|
||
|
||
自定义爬虫是指用户可以添加的任何语言任何框架的爬虫,高度自定义化。当用户添加好自定义爬虫之后,Crawlab就可以将其集成到爬虫管理的系统中来。
|
||
|
||
自定义爬虫的添加有两种方式:
|
||
1. 通过Web界面上传爬虫
|
||
2. 通过创建项目目录
|
||
|
||
### 通过Web界面上传
|
||
|
||
在通过Web界面上传之前,需要将爬虫项目文件打包成`zip`格式。
|
||
|
||

|
||
|
||
然后,在`侧边栏`点击`爬虫`导航至`爬虫列表`,点击`添加爬虫`按钮,选择`自定义爬虫`,点击`上传`按钮,选择刚刚打包好的`zip`文件。上传成功后,`爬虫列表`中会出现新添加的自定义爬虫。这样就算添加好了。
|
||
|
||
这个方式稍微有些繁琐,但是对于无法轻松获取服务器的读写权限时是非常有用的,适合在生产环境上使用。
|
||
|
||
### 通过添加项目目录
|
||
|
||
Crawlab会自动发现`PROJECT_SOURCE_FILE_FOLDER`目录下的所有爬虫目录,并将这些目录生成自定义爬虫并集成到Crawlab中。因此,将爬虫项目目录拷贝到`PROJECT_SOURCE_FILE_FOLDER`目录下,就可以添加一个爬虫了。
|
||
|
||
这种方式非常方便,但是需要获得主机服务器的读写权限,因而比较适合在开发环境上采用。
|
||
|
||
### 配置爬虫
|
||
|
||
在定义爬虫中,我们需要配置一下`执行命令`(运行爬虫时后台执行的`shell`命令)和`结果集`(通过`CRAWLAB_COLLECTION`传递给爬虫程序,爬虫程序存储结果的地方),然后点击`保存`按钮保存爬虫信息。
|
||
|
||

|
||
|
||
接下来,我们就可以部署、运行自定义爬虫了。
|