如何优雅的爬取一个网站

IT技术 • ihuster • 发表于 6 年前 • 最后回复来自 david56083 • 6 年前

最近几天深入学习了一下scrapy框架，对scrapy整体流程有了一定了解，然后就想写爬虫获取数据，从单纯的技术角度来说，不论是否使用框架，遍历整个网站都不是特别难的事。

关于如何反爬虫的问题，始终想知道一个万全之策，可以顺利的把某一个网站爬取下来，lz反而觉在一个爬虫项目中，爬虫的基本解析技术可能仅仅占10%，而90%的策略/难度都用于反爬虫上了，所以别想知道，这一块，在生产环境中和个人开发者里边，反爬虫这一块(lz认为主要是ip问题)，一般是如何具体实现的

lz的目的不是爬几百个G的数据，用在商业上，没有那么大，就是出于兴趣，爬一个网站，比如知乎，能够顺利的爬个几十万数据就不错了，然后分析一下就够了。

共收到1条回复

david56083 6 年前 #1

知乎基本上都有接口，分布式或换IP应该都可以，你可以试下每分钟多少次请求后被403，然后不超过就行。然后换IP的同时，可以把user-agent也换下，我记得有开源项目，如果找不到，你多找几个user-agent，然后用的时候random.choice即可。

请绑定手机号后，再发言，点击此处