百度, 算法, 法真, 杜绝, 伪原创
百度今年大动作不断,前些日子更新算法,号称对于低质量的伪原创进行了打击,于是乎有SEOer就说以后没法做伪原创了,事实上真的是这样吗?低质量的伪原创也许可以搞定,但是某种模式下的伪原创我相信度娘现在是搞不定的,所以伪原创依然有相当大的生存余地。 咱们先来看看伪原创通常有哪几种主要方式:1、同义词替换;2、打乱文章顺序;3、插入额外文字或图片。一般来说伪原创脱离不了这三种模式,无论是人为的还是网站程序执行的。 那为什么说度娘现在还无法完全搞定伪原创呢?有几个方面。 第一是因为自然语言系的复杂性:百度boss Lee自己都承认OCR是目前计算机业界的一大难题,就是因为OCR出来的文本,只能按照光学相似度进行识别,无法按照自然语言的规律进行自动后期处理,因为自然语言的规律实在太过复杂了。大驾都知道微软的word有拼写检查功能,在您写一段文章的时候会对内容的拼写进行检查,有时候这种检查还是很有效的,但是如果您不完全按照书面语的写法来写,夹杂大量的口语的话,这个拼写检查功能就只能干瞪眼了,您会发现文章里有大段的拼写问题。这个问题是到目前为止计算机业界依然无法解决的一个问题,咱们还可以用编译器来进行一下类比:编译器有文法检查,但那只是针对少数关键字和既定语法的情况下进行的检查,这种检查需要匹配的模式与自然语言相比简直是少到了姥姥家了,事实上自然语言的处理就相当于一套自然语言系的规则下的文法检查,可惜这个课题太过庞大了,目前还没有一个能够相对比较好的解决的办法,即使是对于相对简单的西文语系都是如此,更不要提比西文复杂上千万倍的中文了。如果真有人能解决这个问题,他绝对可以拿到当年的**奖,在计算机史上留下自己的名字。计算机网络上目前的内容还是要靠人来填充,如果这个问题得到解决,计算机就可以自己写作文了,内容的填充就完全脱离了人的行为,那时候网络内容的充实也就没人什么事了。 第二是因为网络上的内容充满了各种干扰:即使是内容大驾抄,由于每个网站站点所使用的页面结构和具体代码如下未必相同,在正文开始前的文字内容也往往不会完全相同,更何况刻意进行的伪原创,这意味着蜘蛛抓取到的内容里充满了各种干扰性的因素,具体代码如下本身的干扰是比较容易排除的,很简单的正则就可以消除,但是消除掉具体代码如下以后的文本内容的干扰就不是那么容易搞定了,理由正如第一条之中所说的。 第三是百度的算法本身也只是一套网站程序,它不是人工智能,第一条带来的难题目前想来未来只有人工智能系统可以解决,但是人工智能系统的运算开销不知道有没有人想过,对于互联网上每天产生的天量数据,我相信即使能完成这样的人工智能系统,百度目前也没有那个运算能力,就算它用上NASA的那套计算天文学数据的网站程序都未必能搞定,所以它只能退而求其次,依靠圈定大量的范式来进行匹配,但这里面的同样存在运算开销与执行效果之间的矛盾,所以这个范式不可能圈定全部,事实上以中文的角度来说,它也做不到圈定全部,所以百度的算法只能是靠这些特定的范式完成,这样就存在钻漏子的可能。 综上所述,百度的新算法也许增加了匹配的范式,这些范式对于性质比较恶劣的伪原创,比如插入无意义的字词等等,或许还是有效果的,但真想完全杜绝伪原创,它还真没有这个技术能力,别说它了,连号称技术流的google目前都做不到,不过貌似google也从来不为伪原创操心,它的收录标准比百度宽松多了。基于这个理由,只要不做质量低劣的伪原创,花上一些功夫来做的话,度娘的这套算法是没有办法的. |
网站推广是原动力