搜索引擎内容原创性之分词技术与文本粒度

seo优化中内容的原创性是非常重要的,那么对于搜索引擎是如何判断内容的原创性呢?
首先就是时间先后上,同样的内容最先被搜索引擎抓取到则为原创;其次就是内容的稀缺性。
很多站点为了获得原创性又不想花费过高的时间人力成本就会选择为伪原创的方式,但是其实这种方法意义并不是很大。

伪原创的识别

伪原创的可行性取决于是否可以被搜索引擎识别到,这个就和今天的主题“文本粒度”有密不可分的关系,先说结论伪原创可以被识别。
伪原创一般的手法就是,内容中同义词替换,顺序颠倒,但是这些行为并不会影响文本粒度。

 什么是文本粒度

文本粒度是一个复杂的概念,在讲粒度之前首先必须明白(Query)分词技术,人与机器处理文档时最大的区别,人是具备思维能力的,是通过对整个文档含义的理解;
但是机器是无法理解任何的内容,只能通过算法来分辨文本内容。

分词技术

分词技术就是搜索引擎针对用户提交查询的关键词串进行的查询处理后根据用户的关键词串用各种匹配方法进行分词的一种技术。
简单的讲就是分词技术会把整个文档分割成无数个短语。分词技术现今非常成熟了,分为3种技术。

字符串匹配的分词方法

这是种常用的分词法,百度就是用此类分词。字符串匹配的分词方法,又分为3种分词方法。正向最大匹配法、反向最大匹配法、反向最大匹配法、双向最大匹配法。

词义分词法

就是一种机器语音判断的分词方法。很简单,进行句法、语义分析,利用句法信息和语义信息来处理歧义现象来分词,这种分词方法,还不成熟,处在测试阶段。

统计分词法

根据词组的统计,就会发现两个相邻的字出现的频率最多,那么这个词就很重要。就可以作为用户提供字符串中的分隔符,这样来分词。

 文本粒度的作用

分词的时候是需要一定逻辑的,分词不能乱分,比如分得过细会导致对于内容识别失去意义。
举例,关键词“潘某人SEO优化”,可以分为“潘某人,seo,优化”,这种分词是比较合理的,但是如果分为“潘某,人,s,e,o,优、化”这种显然就失去了意义。
而文本可粒度则正是分词时候的一个度的衡量标准,粒度是衡量文本所含信息量的大小。文本含信息量多,粒度就大,反之就小。有了这个原则,我们就很容易判断文本粒度大小了。
什么是文本的粒度
什么是文本的粒度?,让我们先看看以下几组词汇,可以帮助大家更好的理解本文粒度:

孤独、倒霉、粒子、嚣张

奶茶、冰球、鞋垫、旱冰鞋

打球、跳绳、炒菜、登山

苹果笔记本电脑、IPTV机顶盒、SEO优化

大头儿子小头爸爸、家有儿女、一个人的精彩

像“孤独”,“倒霉”,“粒子”,“嚣张”这些词,虽然有两个字组成,但是仅表达一个意思,再分割就失去意义了,这些词的粒度是小的。
而“冰球”,“奶茶”等词,是由简单词合成的,虽然也可以明确表明一定含义,但是进行查分之后还是存在含义的如“奶”和“茶”,“冰”和“球”。这类词,粒度稍微大一些。而“苹果笔记本电脑”,“IPTV机顶盒”这样的词,粒度就更大了。
还有一类比较特殊的词,尽管所含字数很多,但其实只表达一个意思,如“大头儿子小头爸爸”,“家有儿女”这样的电影、电视剧的名称,粒度是很小的。将此类词继续分割在搜索上的意义更低。
所以文本粒度的大小和文本的长度没有决定性关系,除去一些较长有特殊含义的短语,文本内容越长粒度就越小。

伪原创意义不大

所以基于粒度和分词技术,伪原创内容的意义有限,简单的内容调换删减,近似同意替换,基本上无法改变整片文章的粒度。
就比如微信公众号的原创文章,只有当你把原创文章修改添加内容篇幅足够大的时候才可以不被识别到。
而伪原创原本就是为了降低时间人力成本,深度伪原创的时间成本并不低,或者增强机器伪原创的度,则会因为替换的内容太多导致整体的语义不同,失去了阅读上的价值。
基于这也是搜索引擎实现内容恶意采集,内容拼接,低质量内容识别的基本逻辑原理。
版权声明:第7分类目录 发表于 2022年5月13日 下午5:34。
转载请注明:搜索引擎内容原创性之分词技术与文本粒度 | 第7分类目录

相关文章