无需验证码,一样可以把爬虫扼杀在摇篮-防采集策略一

无需验证码,一样可以把爬虫扼杀在摇篮-防采集策略一

对于采集者,一直很敬畏,是又尊敬又害怕,本身我也是一个爬虫爱好者,对于不考虑别人死活,只想着自己的采集者,那么就屏蔽掉它吧!下面分享一下自己的一些方法!...

阿里云开放搜索(opensearch) ngx lua sdk 把搜索运行在nginx里

阿里云开放搜索(opensearch) ngx lua sdk 把搜索运行在nginx里

想把网站迁移到nginx里,官方没有lua脚本的sdk,只能自己研究写一个了,可以使用,共享出来,给需要的朋友...

debian python2.7 ImportError: No module named _ssl

debian python2.7 ImportError: No module named _ssl

重新打包编译安装的代码,可以解决大部分童鞋的问题。...

千万级网络爬虫设计狂想曲

千万级网络爬虫设计狂想曲

研究采集多年,感觉网络爬虫技术实现起来并不是太复杂,只要有足够的硬件,都可以做到分布式,整个爬虫环节,感觉最难也是最复杂的,还是数据库的设计.......

django缓存模式修改,url参数变动不重复生成缓存的方法

django缓存模式修改,url参数变动不重复生成缓存的方法

标题可能看的让你有点蒙圈,那么具体的需求我说一下你就明白了。 需求: django项目里所有的url都是静态模式: 诸如: http://wjx.bugscaner.com/category/运动健康 http://wjx.bugscaner.com/article/451da7723a018c68 http://wjx.bugscaner.com/account/阿里云优惠券 http://wjx.bug...

django后端判断浏览器是手机端还是pc端完整代码

django后端判断浏览器是手机端还是pc端完整代码

这是一个使用了很长时间的代码,在实际使用中还是不错的,只是目前网站不想再通过django后端代码来判断用户的操作系统了,改为前端tengine来判断了...