背景介绍 pyspider的架构主要分为 scheduler(调度器), fetcher(抓取器), processor(脚本执行), 如下图所示: 整个 pyspider 的各个模块间的任务传递是由消息队列传输的,其中任务的调度则是由「scheduler」模块控制,所以按作者的意思,除了「scheduler」调度模块只能单点,其他的「fetcher」,「processor」,甚至是「monitor & webui」,都可以实现多实例分布式部署。 分布式爬虫部署 准备工作 # 新建工作路径 mkdir pyspider cd