Scrapy安装与使用
创建project
scrapy startproject projectname
scrapy startproject myspider
创建spider
scrapy genspider spidername host
scrapy genspider test test.com
yield
运行
scrapy crawl projectname -o output
scrapy crawl test -o test.json
调试
1.scrapy shell url
2.pycharm调试
配置pipeline
设置缓存
Scrapy的HttpCacheMiddleware组件(默认情况下没有启用)提供了一个底层(low-level)的对HTTP请求和响应的缓存。如果启用的话(把HTTPCACHE_ENABLED设置为True),它会缓存每个请求和对应的响应。
清理缓存的时候只需要把缓存目录删除即可:
$ rm -rf .scrapy