大多数人认为python爬虫必须使用代理ip,否则无法抓取数据。但实际操作就不一定了。如果你需要抓取的信息量不是很大,在不使用代理ip的情况下,一次抓取一个网站上千篇文章是可以轻松实现的。
 
其实最基本的性质就是爬虫也是浏览网站的用户,只是这个用户有点特殊,浏览速度比一般用户快,给服务器带来了很大的压力。服务器使用各种反爬虫策略来限制或禁止爬虫程序,所以这也是很多人认为Python爬虫必须使用换ip软件的原因。
 
如果爬虫的浏览速度和次数没有超出服务器反爬机制的范围,可以不用ip切换软件切换IP;如果要爬取的数据量很大,要多机、多线程、高并发的爬取,那么就需要更换ip软件,切换ip来帮助完成工作。
 
所以一般来说,任务量大的爬虫任务都是换ip软件来解决反爬策略的限制,以保证工作能够进行下去。