Scrapy

安装与使用

Posted by JackyCJ on March 18, 2020

Scrapy安装与使用

创建project

scrapy startproject projectname

scrapy startproject myspider

创建spider

scrapy genspider spidername host

scrapy genspider test test.com

yield

运行

scrapy crawl projectname -o output

scrapy crawl test -o test.json

调试

1.scrapy shell url

2.pycharm调试

配置pipeline

设置缓存

Scrapy的HttpCacheMiddleware组件(默认情况下没有启用)提供了一个底层(low-level)的对HTTP请求和响应的缓存。如果启用的话(把HTTPCACHE_ENABLED设置为True),它会缓存每个请求和对应的响应。

清理缓存的时候只需要把缓存目录删除即可:

$ rm -rf .scrapy