矮人村

 找回密码
 立即注册
查看: 195|回复: 0
打印 上一主题 下一主题

搜索引擎如何判断一篇文章是否为原创?

[复制链接]

27

主题

27

帖子

95

积分

新手上路

Rank: 1

积分
95
QQ
跳转到指定楼层
楼主
发表于 2018-3-9 00:09:22 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
  1.1转载的良心,转载保留外连,作者名,声明转载等个人觉得,这是一种纯良心的做法.因为在转载走的时候,删掉你的信息是很轻松的.当然,大量的采集可能不会删掉原作者留下的版权声明.这就给了搜索引擎一个很好的识别方式.首先,一般的门户在转载文章后,都会很礼貌的在标题后面留下一个[转]字.比较厚道一点的,还会在文章的底部或者头部留下转载源的链接.
  转载源不一定是原创,但肯定更加有利于搜索引擎寻找到这篇文章的最终源头.目前已知的做法的,标题留 [转] ,底部留原作者的文章链接,文章的信息中显示转载于那个作者或者网站.这是目前最为主流的识别方式.
  1.2技术层面的识别当然,这么有礼貌的转载也只是转载采集大军中的一部分.还有相当大的一部分转载,会掐头去尾改标题,外连作者就更不要提了,直接在采集过程中屏蔽替换掉.或许这是国人山寨采集的一种习惯吧,就像QQ的icq,百度的谷歌,支付宝的贝宝...所以说对于这种行为,在这咱也不予评价.
  搜索引擎对于这类文章的识别方式就更多的是通过技术层面的东西.最为优先级的就是,那篇文章优先被搜索引擎蜘蛛抓到.同时,文章中留下的时间,对于百度蜘蛛来说是有迷惑性的.也就是说你转载一篇5月18号发的帖子,把时间改成5月16号,百度蜘蛛是有一定概率被欺骗的.
  同时,对于改标题这方面,百度有一个很模糊的算法.具体的做法就是对比标题和内容的关联性.具体的判断做法尚不清楚,但根据以往的经验来看,如果标题和内容完全没有关系,这篇文章很容易被百度忽视掉.这就说明搜索引擎对于这方面还是有一定的识别度的.同时,对于略有区别的两篇文章,百度可以根据内容的通顺程度,判断出哪一篇的质量更高.

  本文由ste|dai*ban个人签证进行整理发布
更多精彩:
/a/it/2013/0603/2306.html
/a/fangtan/2013/0603/399.html
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

标签|手机版|小黑屋| 矮人村

GMT+8, 2024-10-3 23:26 , Processed in 0.109200 second(s), 37 queries , Gzip On.

Powered by 小矮人挖矿

© 2016 矮人村 版权所有

快速回复 返回顶部 返回列表