2010年5月6日星期四

[GFW BLOG] 利用对google.com.hk的关键词审查生成了一些关键字

非常感谢热心网友赐稿!热烈欢迎大家向我们投稿,投稿信箱地址:
chinagfwblog(at)gmail.com。

作者:Mike Chen   来源:https://ccp.li/?p=19
今天用Python写了个脚本,用于生成单个汉字的关键词。

结果如下 (这里是 脚本的log):

#GBK序列     字符

0xA7 : 0xF5 无法显示
0xA9 : 0x50 �
0xAD : 0x4A �
0xBA : 0xD8 贺
0xBA : 0xFA 胡
0xBC : 0xD6 贾
0xC0 : 0xEE 李
0xCE : 0xC2 温
0xCE : 0xE2 吴
0xCF : 0xB0 习
0xD6 : 0xDC 周
第三个有些问题,应该是 墙对GBK字符的审查缺陷吧,同样的东西,UTF8编码可以打开。
后面的值得探究,都是人名的开头吧:
贺 -> ??
胡 -> 胡锦涛
贾 -> 贾庆林
李 -> ??
温 -> 温家宝
吴 -> 吴邦国
习 -> 习近平
周 -> ??
感叹一下,李白好可怜。贺东祥(我同学)更可怜。
到这里,对具体实现不感兴趣的可以停止阅读了。

具体原理如下:

1. GFW对google.com.hk关爱有加,针对单个字都设置了审查。
2. 审查是基于HTTP协议的,而非基于IP。
3. GFW是双向审查的。意味着国外连接国内服务器有关键词照样重置连接。
所以利用这些特性。不需要跟google.com.hk建立连接,只要往国内任意服务器的任意端口连接然后发送 HTTP头,假如被重置就是有关键词 了。
这里意想不到的是:国内各大门户网站(baidu.com, sina.com.cn, sohu.com, 163.com…)都在白名单内,意味着发送关键词也不会被重置,应该是自我审查的特殊照顾吧。
GBK里面24000左右个汉字,历遍每个,并把查询内容替换为各个字,发送,看是否重置即可。

GET /search?hl=zh-CN&q=<查询内容> HTTP/1.0

Host: www.google.com.hk

Connection: close



--
Posted By GFW BLOG 功夫网 to GFW BLOG at 5/06/2010 07:51:00 AM

--
1、请点击www.chinagfw.org访问我们,订阅地址:http://feeds2.feedburner.com/chinagfwblog。2、翻墙利器"赛风"(Psiphon)代理新网址:http://xinshenbuning.net/。3、本站热烈欢迎各位朋友投稿或推荐文章,请发邮件至chinagfwblog[at]gmail.com。
停止订阅,请发邮件到
gfw-blog+unsubscribe@googlegroups.com

没有评论:

发表评论