时间:2023-06-02 15:26:41
序论:写作是一种深度的自我表达。它要求我们深入探索自己的思想和情感,挖掘那些隐藏在内心深处的真相,好投稿为您带来了七篇关键词的优化方法范文,愿它们成为您写作过程中的灵感催化剂,助力您的创作。
以下列举找关键词常见的10钟方法:
一.淘宝天猫首页搜索下拉框
输入产品关键词,搜索框会自动匹配最近搜索量大的关键词,有时候顾客也会选择搜索下拉框推荐的词语。举例洗面奶,你可以输入洗面奶获取关键词,输入洁面乳也可以,输入洗面奶女都可以获取下拉框的关键词。下拉框的关键词都是最近搜索量很大的词语。
二.淘宝排行榜top.taobao.com可以查看最近搜索量大的关键词以及热卖的产品
我们以人工和软件二种形式对淘宝近百万的店铺的商品评论,信用,商品价格,进行跟踪和分析,我们的排行公式是:
店铺信用度+评论得分+商品价格得分+店铺开店时间*80% =排名得分
三.搜索关键词进入宝贝页面“你是不是想找”这些关键词也是搜索量比较大的
四.卖家中心店铺运营助手热搜关键词
店铺运营助手可以提供权威同行业店铺竞争及商机情报,帮助掌柜发现差距,并提供相应的解决方案,真正实现店铺的数据化运营。
五.量子恒道淘宝搜索关键词就是顾客是通过搜索什么关键词进入你店铺里面的
六.数据魔方标准版淘词功能
(标准版需要一次性订购半年以上才可以使用淘词30/月)专业版是3600/年可以使用,中小卖家使用标准版就可以。
非常好用的工具,是淘宝seo优化以及直通车推广,必备的选词工具
七.直通车系统推荐词
八.直通车流量解析
首先要搞懂什么是淘宝SEO?
通过调整宝贝的关键词、类目、属性等参数,让宝贝精准符合淘宝的搜索排名规则,从而获得免费的、被动的,精准关键词搜索流量的一种优化技术!
简单点理解就是关键词搜索排名优化技术,就是如何让宝贝标题的关键词获得好的排名,获得更多流量的一种优化技术!
淘宝SEO的好处有哪些?
我能坚持研究5年淘宝SEO的方法,足以证明了这种推广方法的可行性和持久性,只要淘宝一天还在,就有淘宝SEO的方法存在,当然,淘宝不可能不用搜索这个功能!淘宝SEO优化技术的好处有很多!
1:免费流量
2:被动流量
3:精准流量
4:必备流量
淘宝SEO的错误操作方法:
很多人认为宝贝标题优化就是把好的关键词放在标题上面就可以了,所以导致很多人认为哪个关键词很好,就放在标题中去,其实设置到宝贝标题中却带不来任何流量。更有人把最热的几个关键词放在宝贝标题中去,希望能够获得热搜关键词的搜索流量,这也是不可取的!
正确的淘宝SEO优化流程:
宝贝标题的编写千万不要只凭感觉,做淘宝要的是标准的数据,和系统化的流程,没有数据的淘宝开店是耍流氓!
一:关键词挖掘
优化宝贝标题怎么能没有关键词呢?关键词的数量越多越好,当然挖掘的方法有很多种,没有工具的朋友只能进行手动挖掘,在下拉框,淘宝指数,数据魔方等中采取关键词
二:关键词筛选
不管你用方法挖掘出来的关键词都是不能直接用的,必须要经过深层的处理才能够把最精准的关键词挑选出来,因为挖掘的时候软件是不会考虑这个词是否有重复,是否有品牌词,所以必须要经过处理后方能使用!
要去除品牌词,去除垃圾词,去除不相关词,更要通过宝贝的属性来挑选与宝贝最相关的关键词
三:关键词查询
别想着现在就可以用这些关键词,还没到时候,新手卖家为什么做不来流量,就是因为不能清楚的认识到哪些关键词是适合我们店铺宝贝的,哪些是不适合的?而我的正确做法是通过数据的查询。
通过数据查询过后的关键词,能够清楚的看见关键词的竞争度,每日搜索量,精准类目等相关数据,再也不会用蒙的方式来选择关键词了,因为那样太不靠谱了!
四:关键词挑选
你可能要问,什么样的关键词才能够适合我们的宝贝呢?这个要根据宝贝自身的权重来分析,流量肯定是先从长尾关键词来,然后是二级关键词,然后才是顶级关键词。
淘宝搜索的流量就跟军营的士兵一样,师令只有一个,而营长和排长是有很多个的,士兵肯定就更多了。师令是顶级关键词营长是二级关键词士兵是长尾关键词!
那我们在挑选关键词的时候,要尽量选择搜索量大,宝贝竞争度小的词作为我们的标题关键词之一!当然宝贝标题打造是有很多套公式的,目前我们有三套公式可以套用关键词来组合成高搜索的流量标题!篇幅有限,只写到这里,如果你真想知道编写标题的公式,请用行动证明给我看,下方评论留言处永远欢迎你对我的评论和转发!
五:下架时间的设置
很多人问我,为什么淘宝会有下架时间获得排名的这一说法,我这里统一给出一个通俗易懂的解释。淘宝那么多卖家,如果按照人气排名那么新手绝对没有机会获得流量,因为新手店铺少有人气高的,如果按照销量排序,那也没有新手的份,因为有销量的店多的数不清,新手的进入是整个淘宝生态系统稳定的基础,所以淘宝必须要给新手更多的机会,也只有这样才能保证生态的稳定,否则淘宝卖家会越来越少!
这也是为什么新店是很容易获得流量的最根本原因,我自己曾经做过很多次的测试,2心店我可以在15天内通过我们自己的爆款产品在不投入1分钱广告费的情况下UV上1000全部是淘宝SEO免费搜索流量,只要满足一个特殊的宝贝权重值!
【关键词】电子商务;网络推广;SEO;常用方法
一、SEO的概念
SEO(Search Engine Optimization),翻译过来称为搜索引擎优化,是指通过采用便于搜索引擎收录和索引的合理手段,使网站中的各种要素适合搜索引擎的检索原则,从而更容易被搜索引擎收录以及在搜索排序中取得优先。SEO是当前非常流行的网络推广方式。目的是增加特定关键字的曝光率以增加网站及相应内容的能见度,达到提高访问量,增加知名度,进而增加销售机会。例如:当人们在百度搜索引擎中输入“自驾游”,做过SEO优化的网站和网页会在搜索结果中排在没做过SEO的网站和网页的前面,甚至能排到搜索结果中的第一页,从而能够更容易被搜索者看见,进而提高点击率。
SEO分为站外SEO和站内SEO两种。站外SEO是通过外部站点来改变网站在搜索引擎排名,这些外部的因素大多是超出网站控制的。最常用的外部站点因素是反向链接。站内SEO是通过完善网站自身的因素来达到便于搜索引擎收录的方式。
二、SEO在网络推广中的重要作用
对于推广而言,方法有很多种,SEO只是其中一种,但相对于其它的方式,SEO当前比较热门,且投入比较低,效果也比较好。当然,我们需要清醒地认识SEO的作用,毕竟,网络推广最终的目的是获得丰厚的收益,而不是它的排名和访问者的多少。概括起来,SEO的作用主要表现在四个方面:
1、促进产品销售
产品销售是企业运营中的核心部分,也是企业推广中的主要目的。通过seo可以使您的产品排到搜索引擎的前面,甚至是首页。当前,人们在寻找产品或其他信息的时候,首先想到的就是利用搜索引擎进行搜索。而当真正需要该产品的客户在点击产品搜索结果的时候,很少有人会点击到十页之后,大多点击前五页的搜索结果。这也就意味着,如果你的产品或企业的信息在搜索引擎排到十几页,甚至更靠后的话,人们是无法通过搜索引擎寻找到你的。而通过SEO,人们就可以主动的找到你,企业则将原来以推为主的产品销售方式转变为推拉结合的产品销售方式进行,大大提高了产品销售的机会。
2、提升企业的知名度
seo不仅仅可以做产品的关键词,同时,也可以做公司企业的关键词,从而提升企业的知名度。而企业知名度的提升反过来又可以促进企业名下所有产品的销售,提高企业的赢利。通过SEO可以使企业的曝光率大大增加,在提升企业名气的同时,还避免了企业通过电视广告、户外广告等,带有明显的商业性,让人明显感觉这是在出钱做推广,而产生的抵触情绪。显然,SEO在提升企业知名度的方面作用是很明显的。试想,如果一个客户想跟您的公司合作,他到百度通过产品来搜索您的公司网站,找了前十几页都没有看到您公司网站的影子,客户心里会怎么想。
3、吸引合作伙伴
通过SEO还可以吸引更多更优秀的合作伙伴。企业网站是当前合作商了解企业的一个重要渠道,特别是在电子商务越来越发达的今天。很多企业首先会通过搜索引擎来搜索。他们会根据得到的搜索排名结果依次了解和分析企业实力,如果您的企业网站没有排在搜索引擎结果显示首页或者前五页,那么您的企业很可能会失去这次很好的合作机会,尽管您的企业实力可能比较强大,产品质量很好,客户服务也很完善。当年盛大公司,就是因为企业网站排在搜索引擎第一位,而得到了韩国传奇游戏公司的投资,进而合作,最终取得了传奇游戏的权。
4、降低推广成本
大家都知道传统推广是很花钱的,而且,效果还不一定好。而网上付费推广看似效果很好,但费用也很高。比如,你在百度或者谷歌做竞价排名,虽然能够保证你在搜索结果中稳居前几名,但现在的价格不是一般的企业所能够承受的了的,目前一些常用的关键词,通过长期的竞价累积,价格已经达到少则点击一次2-3元,多则点击一次收费5-10元。一个星期下来的推广费用会让人窒息,虽然访问量和成交量都上去了,但利润都给搜索引擎给搜走了。而作为SEO,它提供了一种免费推广的方式,应用科学的方法和技巧,同样可以做出很好的推广效果。这样也就在保证企业利润的条件下,大大降低了企业的网络推广成本。
三、SEO常用方法和技巧
做好SEO需要做到网页设计规范、结构合理,网站访问速度快、内容独特而少重复,对大家有用。这肯定需要一些方法和技巧,下面我们围绕SEO的设计思路来谈谈SEO的常用方法及使用技巧。
1、网页设计优化
要想做好SEO,不是做好几个关键词就行的。首先你需要对自己网站的网页进行优化。当然,这里所说的优化,绝对不是仅仅把网页做美观就行,而是在美观的基础上重点提高网页的加载速度,方便搜索引擎的收录。具体的技巧包括:导航或栏目尽量不要使用图片;栏目级别和排版要合理,层次分明;首页一定要包含重点栏目及链接;二级页面要加上当前位置,让浏览者可以很方便的返回上级页面或去其他栏目;在网页的具体内容上不可单调,可以加上描述、关键词等等,这样可以增加关键词和有效链接。
2、网站结构域名优化
网页设计好后,接着应该进行网站结构及域名进行优化,同样是为了搜索引擎能良好的收录网站内容。具体的技巧包括:尽量选择短一点,同时有含义的域名;尽量做到二级域名,比如:.cn效果比.cn/news效果好;网站的路径深度尽量在三级以内,四级以上的页面收录情况会比较差;能使用静态网页的页面尽量使用静态网页。
3、网站细节优化
细节决定成败,做SEO需要完善各个细节,包括:标题,栏目名称,图片处理等等。具体技巧有:给图片加上Alt标签,便于搜索引擎访问;标题加上Title;详细页标题放在标签内;合理设置详细页关键词。
4、网站关键词、描述优化
网站关键词和描述的优化也是细节优化之一,只是因为这个太重要,所以单独拿出来进行分析和说明。每张网页都需要标题,进行关键词设置和描述,特别是首页更不可缺少。具体技巧包括:标题(title)准确,长度控制在70-80个字符;关键词(Keywords)控制在8个左右,100个字符以内,这个不是越多越好,但要准确;描述(Description)也要控制长度,一般控制在400个字符,180-200个汉字。一旦设置好上述内容之后,不要频繁变动。
5、运营优化
关键词:电子商务;购物网站;版面设计;优化方法
互联网的快速发展促使电子商务模式的商业交易蓬勃发展。通过电子商务模式,可以实现消费者的网上购物、商户之间的网上交易和在线电子支付以及各种商务活动、交易活动、金融活动和相关的综合服务活动等。基于电子商务的这种特殊性,电子商务网站页面设计和优化就成为建设电子商务网站时需要考虑的重要内容,网站需要借助图片、文字等元素并按照形式美的要求和信息传播的要求创意组合并最终形成外化的可视表现形式。
对电子商务网站而言,最重要的功能是能实现商品或者服务的在线展示和销售促进,因此,结合这个目的的所有设计元素都须重视。一般而言这些设计元素主要包括五个主要考量指标:板块、风格、交互、内容和功能。下面我们将从网站版块的定位和优化方法、网站风格设计优化方法、网站交互功能的设计优化、网站内容的选择和定位、网站功能设计的原则和调整等几个主要方面来分析购物型电子商务网站版面设计优化需要考虑的问题。
一、网站版块的定位和优化方法
在电子商务网站架构的过程中,首先就是板块的配置。一般而言,通用的版块包括导航区、识别区、展示区以及销售区等。导航区主要实现的功能是网站的导航,引导用户快速浏览渴望获取的信息资讯,同时在链接和内容组织上提供系统的架构形式。识别区主要提供企业形象识别及广告性文字的收纳,实现整站的品牌标识;这部分主要是LOGO、BANNER及旗帜广告或者大促图等形式。展示区主要包括商品或者服务的展示,包含商品标签、描述以及价格等属性,提供商品全息展示。而销售区主要是购物车、在线支付等购物通道。
版块的定位和优化方法主要依据的是鼠标追踪和注意力研究理论。通常情况下,所配置的版块基本按照“E”字型接受访客的访问,访客在超过多屏以后,才有“F”型阅读方式,所以各个版块之间应该简洁清晰,无论是通过颜色还是留白都能使访客清晰而下意识的区分出不同的功能性版块。
二、网站风格设计优化方法
作为购物型的电子商务网站而言,促进交易的达成是网站存在的主要目的,也是最高的设计优化需求。电子商务最重要的就是“激起用户的购物欲望”。其实电子商务和线下销售相同,目的是需要引导用户购买你的商品,所以对一个电子商务网站来说,最重要的是模拟购物场景,根据你网站内容(产品)和网站的目标客户群体,去确定网站风格到底应该如何选择。所以,模拟购物环境是购物网站优化的重要一环。
三、网站交互功能的设计优化
购物网站的访客简单地可以分为初次访问者和重复访问者,对于初次进行购物网站的访客而言,首先需要优化的就是克服购物的不安定感。实际上一个网上购物的过程只需要“挑选商品-填写送货地址-货到、付款”,这是网上购物流程的简单概括,也是购物用户的心理模型。不幸的是,目前大多数购物网站将这一过程复杂化了,“购物车”、“暂存架”、“藏书阁”等等这些在线购物网站专有的名词加剧了潜在用户的恐惧,因此,优化要去掉这样的关键术语,尽量通过平时易懂的语言引导购物,可以在“使用帮助”和“购物指南”手册上多下些功夫,并在网站购物的显要位置提供跳转链接等,这是网站交互设计的关键一点。
四、网站内容的选择和定位
网站内容的选择主要是参考产品定位,这里面最重要的就是确定关键词方向,可以采用把关键词逐层展开的方法,也就是对网站内容的关键词进行层次分类。首先是网站主关键词如网上购物,网上商城,购物网等;其次是是各个产品大类关键词,每个大类提取3个左右的高度相关关键词、小类关键词约100个左右,加强次级页面优化。第三是有关产品关键词的优化:详细列出产品名称与型号,以便最终用户搜索,这部分所涵盖的关键词应在1万以上,并具体到每个页面,同时最好增加专题模块。
五、网站功能设计的原则和调整
网上购物系统是一套集网上购物和商品管理为一体的强大的网上商店(超市)系统,产品功能展示和和客户在线支付功能是核心,它具有多级商品分类检索和搜索、购物车、在线订单、商品推荐、热卖排行、特价商品、商店公告、顾客点评、广告等功能和强大的后台管理功能。
在网站互动社区等功能性设计上,一项最新研究结果表明,与大多数购物网站的预期不同的是,消费者并不希望这些网站提供太多的特色服务;相反,他们只希望在这些网站上可以享受到最基本的购物服务,如对不同品牌的商品和产品进行比较和能够与网站管理者进行沟通就行了。因此,电子商务网站在功能设计上,既要考虑商家的利益把功能相对做的完善周全,又要明确网站设计的目的与消费者需求,要能根据消费者的需求、市场的状况、企业自身的情况等进行综合分析,牢记以消费者为中心的设计原则。
通常网站关键词难度不大的在优化周期内上首页是正常的,但是不能如愿以偿的网站也大有所在,甚至做更长时间的优化,也换不来搜索引擎的青睐,这时seoer便会疑问,这么努力做优化却不见效果,原因何在?其实Seoer接手新站是个很好的挑战机会,前期优化工作做好了,对后期提升网站商业价值可谓唾手可得,新站优化做不好无非就是几个原因:
第一,不懂真正的优化。有些站长只知道优化无非就是做排名,其实对系统的优化认识并不全面,导致优化知识的欠缺而认为内容加外链即是万能,每天重复着同样的工作,站内为了内容更新而更新内容,站外为了增加外链而外链,再者是听说友情链接有效,于是就跟着找友情链接,日复一日,三个月过去了,网站依旧无变化。
第二,优化方法不正确。除了上面所说的机械性优化工作以外,并没有对网站进行全面的检测,网站整体布局和站内代码优化明显不符合优化规则也不做任何改变,不仅影响了网站内容的收录,而且一开始就给搜索引擎带来了不好的印象。没搞懂优化工作的先后顺序,导致三个月的优化周期之后重新进入了沙盒期,要想取得排名恐怕再给三个月都未必可以获得。
第三,没有有效的优化途径。尽管站长们知道网站优化途径大致有哪些,但没有选择适合自己网站的也是白搭。毕竟在接到新站之后,通过分析整合得出一套适合网站的优化思维以及方向,做的工作才是有价值的,这些关系到用户体验以及搜索引擎对网站质量的判断。
分析完网站优化做不上首页可能存在的原因之后,则是对新站的实战,要想三个月做上首页,可以试试小编的方法。
1、网站分析。接到新站之后,先对整个网站情况进行分析,对不利于优化的网站结构加以更改,譬如代码过于冗长,相同模块的实现代码不一致等等,做好站内的优化为后面的日常优化工作作铺垫。然后完成优化定位,选出所有既定关键词中比较容易实现排名的作为重点优化词,以优化此关键词来带动网站整体关键词的排名。
2、做好内容。既然搜索引擎的排名规则是以内容加外链为主,那么在内容这一块,就不要抱着为更新而做内容的心态来完成,这不仅是对用户也是对搜索引擎的敷衍,毫无意义。也许大多站长都会头疼于所谓的原创,其实不必大动干戈,与其强调原创,不如强调有价值。当然,能够原创又有价值,那么在内容这一块,你就成功了。
3、外链建设。外链并非只是为了增加外链而盲目去做,外链的建设重点在于质量,站长们更应该思考的是做怎样的外链对网站的权重才有帮助,如果随便找个平台发个外链就算完事,那还不如不做,浪费时间的同时也为网站增加负担。由此,站长应该看中高权重平台,建议是投稿平台,一天能够在几个好的平台中投上几篇稿就足矣。
一、SEO是中小企业打入世界市场的廉价方法
用户键入关键词进行搜索以期望得到预期的结果,当相同结果众多时,客户更信赖排名在前面的企业网站,排名太过靠后的企业网站,客户基本不会看到。而大型的全球搜索引擎都是以自然搜索结果来服务客户,在可预见的未来也不会实行竞价排名机制,这正好为全球为数众多的中小企业提供了获取国际订单的机会。
二、SEO在国际贸易中的魅力所在
以一个成功的案例来说明:我国昆明斗南一年四季提供鲜花的配送服务,然而国内市场需求量有限,且竞争激烈,单扎价格被压的很低,利润不容乐观。一些企业开始试图开辟自己的海外市场,将自己的网站分为两个部分,一个部分提供给国内用户使用,另一部分提供给国外用户,以较低的价格(加上航空运费也已经高于国内数倍)向国外出售,而国外的客户也接近百分之百的是通过搜索引擎去发现他们并产生订购。国内客户搜索时发现,搜索“鲜花批发”、“鲜花批发 ”、“鲜花批发 贵州”、“ 鲜花批发 天津”等等加地方名的关键词时,有些网站却总是出现在前三位,这些都是做了很好的SEO的企业网站。而国际贸易中的使用也是异曲同工,只不过是将中文关键词改变成为了国际通用的英文关键词,加上长尾词优化,方法得当就可以让全世界的人搜索得到的结果前几项出现优化过的目标网站,从而使贸易的范围扩展到全世界。
三、SEO的持续性使得企业避免巨大的广告投入
众多中小企业投入巨额广告,以求获得巨大效益,但往往适得其反,广告的针对性不够强使得大量的广告资金流失。而SEO则可以将广告投向潜在客户。另外,国际贸易中的SEO得到的排名是不需要按次或时间付费给任何组织或个人的,这一点有别于国内的竞价排名机制。国际贸易类网站优化,只要经常的维护,排名一般是不会有大的浮动的,这样会使得企业省去广告的巨额投入,从而为中小企业打入国际市场提供了方便。
四、SEO的具体步骤
影响搜索引擎排名的因素有很多,仅就针对国际贸易类网站做以下分析:
1.省略,但不要选择china_flower,因为搜索引擎会将’_’忽略掉,那么关键词就是chinaflower,这就不是想要的关键词了,而‘-’被识别为空格。面向全球的贸易类网站的域名后缀最好为com,尽量不要使用国别域名。
2.外部链接的运用
一个网页的质量并不由它本身所决定,而是由外部网页的链入所决定。世界上任何一个好的网站的链接都将被其他网站所转载,而链入这个网页就相当于对这个网页进行了投票,对网页的投票越多,投票的网页越权威,就证明被投票的网页越重要,其所获得的排名就会越靠前。PR是用来衡量网页重要性的指标,然而,事实表明PR值对于外贸网站的关键词排名没有太大作用,对于以信息制胜的网站作用很大,国际贸易类网站的关键词很有限,有的只有几个关键词而已,所以不必去太过在意PR值的高低,随着PR的升高,PR值会越来越难提高,大致符合:PR=■ ,并不是链接数越多越好,链接质量越高链接得分越高。而链向网站的应该是和该网站有关的贸易信息类网站,出站链接也应该是贸易相关的网站,这有助于搜索引擎得出网站分类,但是不要参与链接工厂。
3.控制关键词密度
不要大量堆砌关键词,做过一个测试:为了让搜索引擎收录并获得更多的关键词,疯狂堆砌关键词。结果网页不但没有好的关键词排名,还被剔除收录。一般而言,关键词要和贸易的产品和产地有关,并将其融合进入网站的简介里面去,这就要进行研究哪些关键词更能引发贸易,并且符合大多数国家的地方法律法规,否则有可能得不偿失。
4.绝对不要作弊
国际搜索引擎都对作弊行为深恶痛绝,对于作弊的网站轻则一年数月不予收录,重则永不收录,更别谈排名了。BMW.DE是宝马的官方网站,曾经雇佣一家公司为其优化,采取了作弊的手段,最终遭到Google的拒收。
五、SEO应该交给有贸易经验的人来做
关键词关键词:中文分词;分词算法;使用频度;搜索热度
DOIDOI:10.11907/rjdk.171062
中图分类号:TP312
文献标识码:A文章编号文章编号:16727800(2017)005004202
0引言
自然语言处理中,词是最小的能独立活动的有意义的语言成分。汉语不同于英语,英语有天然的分割符,而汉语需要采用一定的技术或方法将汉语短语、句子分割成最为基本的词。对于搜索引擎、微博情感分析等具体应用,绝大多数的用户输入的中文语句长度短且无自然分割符(标点符号)。本文重点研究短中文分词算法及其优化方法,提出了结合基于词典的分词方法,并利用基于统计的方法和基于规则的方法进一步优化算法,并通过实例验证发现该方法对短中文具有较好的分词效果。
1分~算法优化思路
短中文具有字数少、无自然分割的特点[1]。针对短中文可以根据一定的分词方法(例如逆向或者正向的分词方法)将短中文分成几组词,即要有不同的分词词组,并在此分词算法基础上,根据用户的搜索习惯和网络上词的热度,结合固定搭配和语法匹配规则,给出一定概率指标的排名。利用排名来确定分词的词组,从而实现分词的优化,使得分词结果更加接近用户需求[2-4]。
该优化方法有3个主要步骤,分别是基于字典的分词方法、基于频度的概率指标计算方法和基于规则的概率指标计算方法。
当用户输入关键词字符串时,会根据分词方法将字符串分成几个组词,这几个组词每一组都有一个分词概率指标P,代表该组分词的匹配概率,也就是该组分词是正确分词的概率。而这个指标P由以下4个因素决定。
首先,对于一个用户而言,其具有固定的搜索习惯,分析其搜索习惯的信息有助于分析该用户的习惯,从而在用户给定的搜索关键词中找到用户所需要信息。将这一因素对P的比重记为P1。
其次,一个词在互联网的热度也表明这个词在大众生活中的一种倾向性。例如,某部电影近期很受关注,那么可以预见在近一段时间内针对它的搜索量会增多。对于单个用户而言,它是大众中的一部分,如果在分词分组中出现一个热度很高的词,那么这个分组很有可能就是需要的。因此,将这个因素对P的比重为P2。
除了频度因素对P的影响外,词的搭配也会对词组产出影响。词与词之间的搭配是固定的,如果分词词组存在这样的搭配,也会增加是该组分词的概率,可以把该因素记为O。词与词之间除了固定搭配,还有语法规则上的搭配,每个词都具有词性如名词、动词、形容词等,这些词与词的组合也会对分词产生影响,该因素记为指标附加值Va。
综上所述,对于某一搜索词的分词概率指标P可以表示为:
P=αP1+βP2+χO+C+Va(1)
其中,C为其它因素,α,β,χ为公式中的系数因子。对于不同组的分词来说,C值是相同的。
2基于短中文特点的分词方法
在本步骤中,需要多种分组方法,所以使用逆向与正向相结合的方式[5]。假设字典已经被建立,要从字符串中取出词,首先采用正向方法,设该字符串有L个字符,第一次,取全部的L个字符,然后在字典中查找匹配,如果存在,则该分组为一个有效的分组。如果不存在,那么去掉最后一个字符,即取前1个到第L-1个字符,然后在字典中继续匹配,如果存在,该词即为所需,并将剩下的一个字作为另一个词。同样,如果不匹配,为了加快匹配的进度,去掉上一步最后的两个字符,即取第1到第(L-1)-2个字符,如果匹配,则该词是需要的,并将剩下的词按此方法继续匹配,如果仍然不匹配,就按((L-1)-2)-3这样来继续减少字符串长度来进行字典匹配,直到把该字符串的第一个词从左到右取出来。至此,取到了从左到右的第一个词。需要再从右向左取第一个词,按照同样的方法,只不过这次是从右到左,找到第一个从右到左的词。结合这两个词,如果这两个词的长度加起来等于字符串长度,那么就是一个分组,如果加起来长度小于字符串长度,那么将这两个词之间的字符串取出来,按上述步骤,再次进行分词,直到将词取出完。
按照正逆序结合分词算法能够得到多个不同的分词组合,优化算法主要通过基于频度和基于规则对分词组合结果进行排序。
3基于频度的分词结果排序算法
频度排序算法有两种:用户使用频度算法和网络热词频度算法。
3.1使用频度
一个用户有着自己固定的习惯、爱好和知识面,所以当一个用户使用搜索功能时,其搜索的内容是有规律的。例如,一个计算机专业的人员,其搜索的内容很大概率与计算机有关;一个注重自己样貌的女孩会十分关心化妆品;一名动漫爱好者会搜索与动漫相关的东西。基于此,可以搜集用户的一些搜索信息,判断该用户有哪些习惯,从而提升用户的搜索体验。
前面提到过,在第一步分词后,会得到几种不同的分词组,如果分词组与用户搜索信息具有很强的相关性,那么可以认为该分组是需要的。
用户搜索信息就是用户在搜索时输入关键词,可以在用户输入完毕时,将关键词存入数据库,数据库中还会存有该用户搜索该关键词的频度。如果不是第一次输入该关键词,就更新其频度项。
(1)公式引出。如果一个用户的某一个搜索关键词频度越高,而同时在分词的某一词组中也同样存在该词,那么就表示该词组可能是用户需要的。
采用与频度有关的函数来表示这个可能性概率[6]。首先,用户关键词频度的绝对值越高,那么其越有可能代表用户的某一搜索习惯,所以该分组的可能性越高。其次,当用户的搜索次数比较多时,不能单纯使用关键词的绝对值作为标准,用户关键词频度的相对值(该关键词的频度除以总频度)也会影响用户频度概率指标。
将用户频度概率指标定义为P1;
用户关键词频度绝对值定义为N;用户关键词总频度定义为S;
用户关键词绝对频度的影响因子定义为a;
用户关键词相对频度的影响因子定义为b;
其它因素定义为C1。
故用户频度概率指标P1可以表示为:
P1=a*N+b*NS+C1(2)
(2)参数确定方法。在该公式中,N,S可以从数据库中查询,a、b、C为未知量,所以需要用数据来训练这个公式,得出a、b、C。该数据训练的核心就是采用十分具有代表性的数据代入公式中,然后依据这些已知数据推导出需要的参数。
3.2搜索热度
对一个词,如果互联网上其搜索的次数很高,那么它是一个热门词。热门词代表着大众的搜索习惯,而其搜索的频度越高,说明其在人群中的认同度和倾向性越高。同样,用户属于大众的一员,其搜索的内容会有一定概率包含搜索关键词。所以,可以利用此来提高分词的准确性。这种概率可以称为网络热词频度概率指标,该指标计算需要由网络热词字典和指标匹配标准这两部分支持。
(1)网络热词字典建立。网络热词字典,是一个包含词的网络使用频度的字典,其中包含大量的词。该字典,可以看作是在大数据条件下的信息检索。国内的大数据发展迅速,“百度”在其“百度风云榜”、“百度指数”等服务上提供了网络关键词大数据分析,十分便利,利用这些服务,可以将网络热词字典建立起来。
(2)匹配标准。热词网络搜索频度越高,该词所在的分词词组匹配概率越大,定义网络热词频度指标为P2 ,热词的频度为T,热词频度的因子为x,其它因素影响为C2,则网络热词频度指标为P2,可用下式表示:
P2=x*T+C2(3)
4基于规则的分词结果排序算法
经过上述频度概率指标算法,得到分词词组的概率排序名次。但是,在利用其概率指标函数计算出来的结果相差不大的情况下,仍不能准确判断出采取哪种方案[7]。为了加强其准确度,还应在规则层面再次进行检验。
4.1固定匹配
固定搭配是具有固定结构的词组。比如“发扬――精神”、“养成――习惯”等等。这些搭配出现在分词词组中,具有该固定搭配的分组的概率指标也会增大,而且,该固定搭配受其热度影响。对于一个固定搭配而言,其热度(网络使用的频度)越高,那么它被大众认同的程度越高,这也就表明该固定搭配的成熟度越高。所以,固定搭配与其热度(即大众使用频度有关)。
定义固定搭配概率指标为O,其使用频度(热度)为Q,该使用频度的因子为y,其它因素为C3 。则固定搭配概率指标为O可以表示椋
O=y*Q+C3(4)
4.2语法匹配
词与词之间是有规则的,动词与形容词在一起构成的短语语法规则弱,与形容词和名词构成的词组相比,后者明显在语法规则上比前者好。语法规则在一定条件下,对于分辨出分词词组很有帮助。
在这里,可以为每种词与词之间的搭配依据其规则匹配度赋予一定的值,规则匹配度越高,其语法规则越强,形成的分组可能性越高[8]。在这里,以附加值的形式来描述语法规则对P的影响。
定义语法匹配附加值为Va。Va的值是由词与词之间的规则匹配度决定的,而词与词之间规则匹配度可以根据汉语语法和汉语使用习惯决定。
5结语
针对网络短中文提出了分词的优化算法,该方法有3个步骤:字符串分词、频度概率指标计算和规则匹配指标计算。其中,分词概率指标贯穿整个研究的全部。利用数据进行拟合,定量提出了分词概率指标的计算公式及求解方法。最后,利用数据集来对该算法公式进行检测,发现该算法的正确率在80%以上,达到了实用的目的,但是由于语法匹配附加值取值不当,导致分组仍有提升空间。
参考文献参考文献:
[1]王连喜.微博短文本预处理及学习研究综述[J].图书情报工作,2013,57(11):125131.
[2]蒋红.中文文本分类中文本表示及分类算法研究[D].金华:浙江师范大学,2007.
[3]朱世猛.中文分词算法的研巧与实现[D].成都:电子科技大学,2011.
[4]宗成庆.统计自然语言处理[M].北京:清华大学出版社,2008.
[5]周程远,朱敏,杨云,基于词典的中文分词算法研究[J].计算机与数字工程,2009(3):6871,87
[6]叶继平,张桂珠,中文分词词典结构的研究与改进[J].计算机工程与应用,2012(23):139142.