几年前做过一个爬取笑话网站的爬虫, 爬了好几个网站,抓取了几万个笑话,去年把收集到的数据,做成了一个简单的笑话网站,爱说笑.

代码扔github上了,地址。 用到的东西, scrapy做的爬虫,ui是tornado + mongodb + nginx, 中文分词用的是结巴分词, 前端用的bower + grunt + bootstrap

另外,开发了简单的微信公众账号,可以实现发送关键字,显示相关笑话的功能,目前运行良好,微信搜索爱说笑,对,就是哈士奇头像那个。。。关注即可,也可以直接到这里,扫描二维码。

目前数据库里有5万多条笑话,有时间再增加吧。