由于爬虫使用的是MongoDB,常常会爬取到重复的数据,通过MongoDB的命令删除重复的数据,对于3.0来说,需要使用聚合来删除,而且使用之前每次都需要对于源数据进行操作,所以比较麻烦,还是通过直接建立索引,对于重复的数据直接不写入到数据库中,比较方便一点。
MongoDB建立独立索引的步骤:
1 | > db.createCollection("questions"); #创建Collection |
由于爬虫使用的是MongoDB,常常会爬取到重复的数据,通过MongoDB的命令删除重复的数据,对于3.0来说,需要使用聚合来删除,而且使用之前每次都需要对于源数据进行操作,所以比较麻烦,还是通过直接建立索引,对于重复的数据直接不写入到数据库中,比较方便一点。
MongoDB建立独立索引的步骤:
1 | > db.createCollection("questions"); #创建Collection |
微信打赏
支付宝打赏