15年4月份我正准备换份工作,当时那家公司的网络对google做了科学上网的处理,我就想下一家要不能上google我就得自己搭,当时ss/pptp其实已经流行了,但是我觉得还是太过于繁琐,部署繁琐,使用繁琐,后来就想到了反向代理google,于是我在4月或者5月(记不清了)注册了googlebridge.com, 那么后来为啥从反向代理google改为爬取google结果,这个改变我现在已经记不得了,但是翻了下blog,好像7月份我应该在找python相关的工作,所以用python写的这个爬虫,这也可能是原因之一。
14-17之间,网上的google镜像站,但是爬google结果的只有googlebridge,然后这个站在15年7月份做出来之后,宣传了一波,后面虽然有一直在维护,但是可以说基本就是我自己在用。
其实在这两年对googlebridge维护中,遇到各式各样的问题,最让我头疼的就是google的反爬机制过于严格,这两年我也尝试了一些方法,效果也不是很明显。在17年8月初,我尝试了用代理ip的方式去爬,google ban一个我就换一个,但是后来发现这些代理ip或多或少都曾经做过一些爬虫,屏蔽的几率远远高于vps固定的公网IP,访问google需要高纯净的ip,这些廉价的代理ip是行不通了,也就是我上条post发的对googlebridge做的一些新的尝试,其实是失败了。
所以我想这个问题困扰我这个长时间,我想我后面应该也不会有太多的有效的方案,那么我又萌生另一个想法,把googlebridge开源出去。一方面如果更多的人建爬虫站,那不就等同于上面说的用高纯净的代理ip去访问吗。第二个方面,googlebridge开源出去,希望可以给那些做爬虫,学爬虫的一些启发吧。
想法就是这么简单,也许开源以后,真有人很好的优化google反爬这个机制呢。
试试吧。。。