矮人村

标题: 搜索引擎如何判断一篇文章是否为原创? [打印本页]

作者: zhangyu75    时间: 2018-3-9 00:09
标题: 搜索引擎如何判断一篇文章是否为原创?
  1.1转载的良心,转载保留外连,作者名,声明转载等个人觉得,这是一种纯良心的做法.因为在转载走的时候,删掉你的信息是很轻松的.当然,大量的采集可能不会删掉原作者留下的版权声明.这就给了搜索引擎一个很好的识别方式.首先,一般的门户在转载文章后,都会很礼貌的在标题后面留下一个[转]字.比较厚道一点的,还会在文章的底部或者头部留下转载源的链接.
  转载源不一定是原创,但肯定更加有利于搜索引擎寻找到这篇文章的最终源头.目前已知的做法的,标题留 [转] ,底部留原作者的文章链接,文章的信息中显示转载于那个作者或者网站.这是目前最为主流的识别方式.
  1.2技术层面的识别当然,这么有礼貌的转载也只是转载采集大军中的一部分.还有相当大的一部分转载,会掐头去尾改标题,外连作者就更不要提了,直接在采集过程中屏蔽替换掉.或许这是国人山寨采集的一种习惯吧,就像QQ的icq,百度的谷歌,支付宝的贝宝...所以说对于这种行为,在这咱也不予评价.
  搜索引擎对于这类文章的识别方式就更多的是通过技术层面的东西.最为优先级的就是,那篇文章优先被搜索引擎蜘蛛抓到.同时,文章中留下的时间,对于百度蜘蛛来说是有迷惑性的.也就是说你转载一篇5月18号发的帖子,把时间改成5月16号,百度蜘蛛是有一定概率被欺骗的.
  同时,对于改标题这方面,百度有一个很模糊的算法.具体的做法就是对比标题和内容的关联性.具体的判断做法尚不清楚,但根据以往的经验来看,如果标题和内容完全没有关系,这篇文章很容易被百度忽视掉.这就说明搜索引擎对于这方面还是有一定的识别度的.同时,对于略有区别的两篇文章,百度可以根据内容的通顺程度,判断出哪一篇的质量更高.

  本文由ste|dai*ban个人签证进行整理发布
更多精彩:
/a/it/2013/0603/2306.html
/a/fangtan/2013/0603/399.html




欢迎光临 矮人村 (http://airencun.com/) Powered by Discuz! X3.1