最近项目中用到了scrapy,所以研究了一下,发现很好用,主要把时间花在内容的提取规则上即可,剩下的全部交给scrapy搞定。

写了几个网站的爬取规则,包括6个图片网站,7个笑话网站,每个网站需要编写的代码50行以内,所以对于内容采集来说scrapy非常好用。

爬几个笑话网站的代码放在了github上了: joke-spider