公告:网址大全导航目录www.btv85.com为各位站长提供免费收录网站的服务,VIP会员每天提交网站30、文章30免审核,快审服务(10元/站),可自助充值发布。

点击这里在线咨询客服 点击这里在线咨询客服
新站提交
  • 网站:223084
  • 待审:0
  • 小程序:16453
  • 文章:25975
  • 会员:239

今天BTV导航网的小编为你讲一下SEO优化实战经验总结 中文分词相关的内容。
最早的中文分词办法是由北京航天航空大学的梁南元教授提出的一种基于“查字典”的分词办法。该方法是把整个句子读一遍,然后把字典里有的词都单独标示出来,当遇到复合词的时候(例如北京大学),就找到最长的词匹配。遇到不认识的字符串就分割成单个文字。
例如:“著名导演张艺谋说国庆节晚上将安排十万人到天安门联欢。”
根据该办法,可以切分为:
“著名 | 导演 | 张艺谋 | 说 | 国庆节 | 晚上 | 将 | 安排 | 十万人 | 到 | 天安门 | 联欢”
这样的分词办法虽然说可以应付很多的句子,但是由于细分的太多,在真正搜索引擎使用的过程中,到底哪一个词才是重点就无法表述,从而搜索引擎搜索出的结果也不能达到最大的相关度。

在80年代,哈尔滨工业大学计算机博士生导师王晓龙博士提出了“最少词数”的分词理论,即为,一句话应该是分词最少的字符串,这样会更多的让搜索引擎更明白这句话到底是什么意思。但是它对于例如“二义性”的关键词组,就不能说最长的分割就是最好的结果。
例如:“吉利大学城书店”
这个关键词正确的分词应该是“吉利 | 大学城 | 书店”而不是词典中的“吉利大学 | 城 | 书店 ”



目前,主流的分词办法有两种,一种是基于统计模型的文字处理,另外一种是基于字符串匹配的逆向最大匹配法。

基于统计模型的文字处理
从形式上看,词是稳定的字的组合,因此在上下文中,相邻的字同时出现的次数越多,就越有可能构成一个词。因此字与字相邻共现的频率或概率能够较好的反映成词的可信度。可以对语料中相邻共现的各个字的组合的频度进行统计,计算它们的互现信息。定义两个字的互现信息,计算两个汉字X、Y的相邻共现概率。互现信息体现了汉字之间结合关系的紧密程度。当紧密程度高于某一个阈值时,便可认为此字组可能构成了一个词。这种方法只需对语料中的字组频度进行统计,不需要切分词典,因而又叫做无词典分词法或统计取词方法。但这种方法也有一定的局限性,会经常抽出一些共现频度高、但并不是词的常用字组,例如“这一”、“之一”、“有的”、“我的”、“许多的”等,并且对常用词的识别精度差,时空开销大。实际应用的统计分词系统都要使用一部基本的分词词典(常用词词典)进行串匹配分词,同时使用统计方法识别一些新的词,即将串频统计和串匹配结合起来,既发挥匹配分词切分速度快、效率高的特点,又利用了无词典分词结合上下文识别生词、自动消除歧义的优点。

基于字符串匹配的逆向最大匹配法
一般来说,在SEO中使用最多的分词办法就是基于字符串匹配的逆向最大匹配法。这种方法就是从句子的后面往前(从右向左)进行分词。



在搜索引擎运行的机制中,有很多种中文分词的办法,例如正向最大匹配分词、逆向最大分析、基于统计的分词等。但是在实际的搜索引擎运行过程中,分词的办法却没有这么简单了。因为搜索引擎不仅仅要去考虑到分词结果的正确性,还需要考虑到对于分不出来的词的处理。

首先我们来讨论分词结果的准确度,一般来说,搜索引擎是使用多种分词的方式构成一个混合分词方式来进行分词的,因为这样可以让词汇最大化的、更准确的分开。混合分词的原理是:先使用专业词典进行分词,之后再使用普通词库进行一次分词。

那么对于分不出来的词,搜索引擎又是如何操作的呢?
一般来说,搜索引擎遇到这样的关键词时,会采取一元分词+二元分词+混合分词+不分词的方式来解决这样的问题。
例如:“草泥马是一种食草动物”
一元分词结果:“草\泥\马\是\一种\食草\动物\”或者“草\泥\马\是\一种\食草动物\”或者“草\泥\马\是\一种\食\草\动物\”
二元分词结果:“草泥\泥马\是\一种\食草\动物”。
第三种方式——干脆不分,以保持新词的完整性。
在经过了这一系列的分词程序后,实际分词的结果是:草泥\泥马\草泥马\是\一种\食草\食\草\动物\食草动物



掌握了中文分词技术,就可以为网页构建更多的长尾关键词。
通过对SEO优化实战经验总结 中文分词的详细介绍,希望对你有所帮助,我们提供了更多和SEO优化实战经验总结 中文分词类似的相关内容推荐,可以你更全面的帮助你解决问题。我们BTV85网址导航还提供网址收录服务,你可以注册提交你的网站信息,帮你引导搜索引擎蜘蛛,同时还有网站SEO优化交流微信群,里面很多SEO高手和大咖,加友链,可以免费进群。

SEO优化实战经验总结 中文分词同类内容推荐:
  • 出发吧麦芬快速刷经验办法说明

    出发吧麦芬怎么快速刷经验?游戏中前中期最主要的事情是练级,很多玩家刷图发现经验值并不多,升级比较的缓慢。下 2023-02-28

  • 星际争霸2怎么设置中文

    游戏界面如果不是中文,对于不熟悉其他语言的小伙伴就很难理解游戏内容,因此星际争霸2中加入了中文设置功能,在 2023-02-13

  • chatgpt中文

    很多小伙伴都听说过chatgpt这个软件,却不知道这个中文是什么意思,其实整体来看这个就是一种人工智能,也就是AI 2023-02-13

  • chatgptai怎么设置为中文

    很多小伙伴第一次接触到chatGPT的时候发现页面都是英文,看不懂而不知道该怎么操作,其实我们只需要输入中文就 2023-02-13

  • 假未来FakeFuture怎么刷经验

    假未来FakeFuture怎么刷经验?在游戏中,给的经验多少取决于你制作产品的原时长,但是无论怎么减还是觉得太浪费时 2022-12-14

  • 抖个大包袱帮老外通过听力通关攻略

    抖个大包袱帮老外通过听力是游戏最新关卡,大家要根据提示,帮助老外通关中文十级听力考试。下面btv85导航网为 2022-12-13

  • 航海日记2欧洲跑商经验路线分享

    航海日记2欧洲怎么跑商?很多玩家所在的地区不同,跑商的路线也就不一样,部分人在欧洲区域,那么路线该如何选择呢? 2022-12-13

  • 明日方舟红松林经验基建套组说明

    明日方舟红松林经验基建怎么配?目前游戏里面高效率的基建套组很多,红松林经验套组是其中之一,部分玩家可能不了 2022-12-02

  • 长安幻想快速升级攻略

    长安幻想中前期升级比较快,等级越高经验获取也就难,有些玩家也喜欢卡级,不过更多玩家还是追求更高等级,那么怎么 2022-12-02

  • 原始人别嚣张钻石经验获取攻略

    原始人别嚣张钻石经验怎么获得?钻石和经验是游戏里面的重要资源,钻石主要用来购买资源,而经验则用来强化卡牌。 2022-11-15

  •   admin

    注册时间:

    网站:0 个   小程序:0 个  文章:0 篇

    • 223084

      网站

    • 16453

      小程序

    • 25975

      文章

    • 239

      会员

    赶快注册账号,推广您的网站吧!
    热门网站
    最新入驻小程序

    小朋友猜谜语2021-05-24

    小朋友猜谜语是一款学习教育类的

    球比分2021-05-24

    球比分是一款体育运动类的小程序

    匠人名片2021-05-24

    匠人名片是一款交友社交类的小程

    知晴2021-05-24

    知晴是一款生活服务类的小程序应

    优惠券查询工具2021-05-24

    优惠券查询工具是一款其他工具类

    成语词典汉字拼音故事大全字典2021-05-24

    成语词典汉字拼音故事大全字典是