GFW屏蔽规则的猜想

阅读时间 6 分钟,快速阅读仅需 2 分钟。

怎样的网站或网页才会被G$F$W屏$蔽呢?我结合我看过的报道以及自身的体会猜测一下G$F$W屏$蔽网站/网页的规则。就是具体符合什么条件才会被屏蔽呢?这个纯属是假想的模型规则。本文仅用于学习交流,请勿用于非法途径!

阅读时请把”$”忽略。

我猜想这些规则是这样的:

1、 网站威$胁度

首先我要引入一个概念,
网站威$胁度(E)。我们假设E的值是0到100,先不考虑“黑名单关键词”,若网站威胁度超过某个数值,我们假设它是70,网站就会被高度屏$蔽,但不是永久的。若E大于某个比较高的数值,例如90,网站就会被永久屏$蔽。被高度屏$蔽的网站可能当它删除大部分敏$感信息之后会被重新开放,但当它继续增加敏$感信息之后它的E值可能会超过90,那时候即使它删除敏$感信息也不会被解$锁。
若威$胁度为一个不太大的值,例如40,同样,先不考虑黑名单关键词的影响,网站就可能成为被监$视的目标了。一旦某时刻出现了较多的敏$感信息,它就有可能被屏$蔽。就像Blogspot和my.opera.com。
在我个人的体会中,外国的网站的威$胁度普遍要比有多少个超链接是连接到黑名单网站的,黑名单网站是指那些G$F$W认为威胁度很高的网站。我称这个为链接威$胁度(G),G值是由页面上的链接所指向的网站的威$胁度以及超链接的数量决定的。假设其数值是0-100.
比如,一个页面上有100个指向反$动网站的链接,所有这些网站的网站威$胁度E都大于60,那么这个页面的危险度D就会比较高了。但是如果页面上有10000个链接到E值小于0.01的网站,那么,D的值可能并没有前者的高。也就是说,G$F$W不但会考察链接的数量,还考察这些链接的质量(即所指向网站的威胁度)。这和Google的Page Rank的计算方法有点类似。

2关键词威胁度

我们先从关键词猜想起。显然,关键词在屏蔽过程中起着重要的作用。对于单个关键词,我们引入一个概念,关键词威胁度(P)。也就是一个关键词的敏感程度。我们假设它的数值是从0-100的,那么我们可以肯定的是“月光”这个关键词的威胁度几乎是0,而“法轮功”

的威胁度可能到达70

那么我们再引入一个概念,关键词综合威胁度(V)。如果一个页面上包含多个敏感关键词,那么该页面的V值就会比较高了,就有被屏蔽的危险了。GFW可能通过某种算法Q,若各关键词的威胁度P分别是a,b,c…那么V的值就为Q(a,b,c…)。我们再假设V的值也是0-100的,那么这篇文章的V值就可能会比较高了,可能达到了30。因为几乎所有网页都含有敏感的关键词,所以几乎每个网页都有一定的危险度。譬如“王丹”,若一个网页上含有这样的词语“王丹婷”,虽然我们知道这不是敏感词,但GFW是相当机械化的,这点我深有体会。

3链接威胁度

GFW的规则里面可能还有这样一个规则,就是考察页面上有多少个超链接是连接到黑名单网站的,黑名单网站是指那些GFW认为威胁度很高的网站。我称这个为链接威胁度(G),G值是由页面上的链接所指向的网站的威胁度以及超链接的数量决定的。假设其数值是0-100.

比如,一个页面上有100个指向反动网站的链接,所有这些网站的网站威胁度E都大于60,那么这个页面的危险度D就会比较高了。但是如果页面上有10000个链接到E值小于0.01的网站,那么,D的值可能并没有前者的高。也就是说,GFW不但会考察链接的数量,还考察这些链接的质量(即所指向网站的威胁度)。这和GooglePage Rank的计算方法有点类似。

4、网页危险度

现在我们进入本文的重要部分:关键词综合威$胁度和链接威$胁度怎样决定一个页面是否被屏$蔽呢?当然,还是先不考虑认为因素。我猜想是这样的,通过某一算法F,得到一个网页的危险度D=F(E,V,G)。也就是说,网页危险度由三个因素决定,网站威$胁度E,关键词综合威$胁度V和链接威$胁度G。当危险度超过某个特定的数值,网页就会被马上屏$蔽。
我在第一部分的时候说,网站威$胁度是由各网页的危险度来决定的,即E=U(D1,D2,D3…)那么,网站威$胁度和网页危险度就相互影响了。但由于两者不可能同时作为因变量,其中必有优先级的区别,我猜想是E的优先级要高于D。其中必定还含有人为因素的影响。所以中国的网$警们每天的工作量应该是不小的。多么可敬的勤劳的人们啊!

5、网站威$胁度E更重要

若一个页面E=30,V=60,G=40,可能其D值并不会很高,而一个E=40,V=20,G=10的页面的D值可能会更高。当一个网站的E值=70(假设),即使某些页面V=0,G=0,此网页也会被屏$蔽,就像Wikipedia,这就是为什么一些网站威$胁度不是很高但其全部页面都无法访问的原因了。这就是前面所提到的被高度屏$蔽的网站(不是被永久屏$蔽的网站)。
若一个网站E=0,而某些页面V=100,G=100,GFW就只会屏$蔽这一个页面,但V值和G值的偏高肯定会影响网页危险度D,从而对E值造成影响。
这一部分的意思主要是:G$F$W在屏$蔽网页的时候(D值)考虑更多的是网站威$胁度E值的影响,而非V值和G值。

6、小结

其实被G$F$W列入黑名单的网站不一定会被屏$蔽,有可能会被域$名$劫$持到另一个网站,我就曾经从yahoo.com.hk被劫$持到国内某空间提供商了。
现在有消息称,G$F$W已经渗透到其它通信渠道中了,例如手机短信,甚至是电话通信。所以,以后我们还是要小心做人。点击这里查看突$破$网$络$封$锁的方法。

7、总结

这篇文章只是我个人对G$F$W屏$蔽网站\网页规则的猜想,当中肯定有很多不足之处,欢迎所有人指点批评(当然,最欢迎网$警们直接告诉我这些规则,好让我学习学习。)。实际上的G$F$W的规则,应该会更复杂一些。再次申明一下,这篇文章只用于学习交流,请勿用在非法途径。

10 条评论

  1. 2007根据<现代汉语词典>(第五版)所有词条(26000余条)查得的屏蔽词汇("据当地法律法规和政策,部分搜索结果未予显示")2000余条,有"八宝饭"也有"马克思主义"… … 好笑的是,敏感从来不是别人觉得你很敏感,而是自己觉得自己敏感, 所谓敏感词,是我们并不觉得八宝饭敏感,八宝饭自己觉得自己很敏感.
    更好笑的是,极少数的人,早就知道八宝饭很敏感.

  2. 偶也读过一些相关的文献,从中初步了解到这些工具是直接操控的(即不是远程控制),而且目前除了北京和上海以外,据说连省级交互点也布置相关程序,另外,偶曾经用了十几个绿坝数据库中心理和政治方面词汇(不包括那些十分明显的)在Google,cn上发现不少有屏蔽,故偶个人认为GFW的关键字应该和绿坝数据库有交集,甚至可能是后者的子集!

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注