时间:2023-06-22 09:22:43
序论:写作是一种深度的自我表达。它要求我们深入探索自己的思想和情感,挖掘那些隐藏在内心深处的真相,好投稿为您带来了七篇神经网络文本分类范文,愿它们成为您写作过程中的灵感催化剂,助力您的创作。
关键词:个性化;信息检索;文本分类
中图分类号:TP311文献标识码:A 文章编号:1009-3044(2008)29-0265-02
Method of Text Categorization in Personalized Retrieval
PENG Ye-ping, XIAO Da-guang
(Information science and Engineering college,Central South University,Changsha 416000,China)
Abstract: Personalized retrieval is becoming a hot topic for research, this paper mainly discusses about the text categorization algorithm, its principles and scope of application.
Key words: personalized; retrieval; text categorization
1 引言
搜索引擎在信息检索中起了重要作用,但是由于引擎的通用性,使其不能满足不同目的,背景,时期的用户查询需求,因此需要针对拥护特征向用户提供个性化服务。文本分类方法通过构造某种分类模型,并以此判断样本所属的类别。文本分类对合理组织,存储文本信息,提高信息检索速度,提高个性化信息检索效率的基础。
2 分类方法
2.1 朴素贝叶斯方法
朴素贝叶斯方法是一种在已知先验概率与条件的情况下的模式识别方法,假设词条之间是相互独立的。设d为一任意文本,它属于文档类C{c1,c2,…,ck}中的一类Cj,引用词条和分类的联合概率来计算给定文档的分类概率的公式如下:
计算所有文本类在给定d情况下的概率,概率值最大的那个类就是文本d所属的类,既:
2.2 贝叶斯网络分类法
贝叶斯网络分类法考虑了特征之间的依赖关系,该方法更能真实反映文本的情况,但是计算复杂度比朴素贝叶斯高的多。
2.3 决策树方法
决策树极强的学习反义表达能力使得其适合于文本分类,它是通过一组无序,无规则的实例推理出树型的分类规则,采用自顶向下的递归方式,在决策树的内部结点进行属性值的比较并根据不同的属性值进行判断从该结点向下的分支,在决策树的叶结点得到结论,决策树的建立算法有很多,文献[5]其中包括基于信息增益的启发式计算ID3;基于信息增益率的解决联系属性的算法C4.5;基于Gini系数的算法CART和可并行性算法SPRINT算法。决策树方法特点是使用者只要将训练样例能够使用属性-结合式的方法表达出来,就能够用该方法来学习,但是这种算法生成的仍是多叉树。
2.4 K-邻近方法
K-邻近方法,根据测试文本在训练文本中与之最相近的K篇文本的类别来判定它的类别,其中,K是一个重要的参数,文献[4]K值过大,则与待分类文本实际上并不相似的一些文本也被包含,造成噪音增加;K值太小,则不能充分体现待分类文本的特点.一般对K会选定一个初值,相似值的判定可取欧拉距离或余旋相似度等,若分类系统中相似值的计算采用余旋相似度,则公式如下:
Sim(x,di)为相似度公式,X为新文本的向量,y(di,cj)为类别属性函数,若d∈cj,则y(di,cj)=1;否则y(di,cj)=0;将新文本分到权重最大的类别中去。
2.5 支持向量机
Vapnik提出在结构风险最小化准则理论上的支持向量机方法,能有效解决小样本集的机器学习问题,向量机主要是针对两类分类问题,在高维空间寻找一个满足分类要求的最优超平作为两类的分割,既保证分类精确度,又要使超平面两侧的空白区域最大化,以保证最小的分类错误率,文献[1]对于大于两类的多类文本分类,就对每个类构造一个超平面,将这一类与其余的类分开,有多个类就构造多个超平面,测试时就看哪个超平面最适合测试样本。支持向量机方法避免了局部性问题,样本中的支持向量数,能够有效地用于解决高纬问题。
2.6 神经网络方法
神经网络是模仿人脑神经网络的基本组织特性构成的新型信息处理系统,其性质取决于网络拓扑结构,网络的权值和工作规则.通常由等于样本特征数的输入层,输出层,等于样本类数的神经元组成。其中,每一个连接都有一定的权值,通过训练类来训练的过程就是调整这些权值的过程,从而使神经网络与可以正确地预测类别。
3 几种方法的比较
3.1 朴素贝叶斯与网络贝叶斯
朴素贝叶斯方法使用概率去表示所有形式的不确定性,学习或其他形式的推理都用概率规则来实现,但是大部分情况是文本特征之间的依赖关系是相互存在的,所以特征独立性会影响朴素贝叶斯分类的结果;网络贝叶斯能够考虑特征之间的依赖关系,但是计算复杂度比朴素贝叶斯高得多;
3.2 支持向量机方法
支持向量机方法的优点:首先,该方法是针对有限样本情况的分类方法,其算法最终将转化为一个二次型寻优万恶提,理论上得到的将是全局最优点,避免了局部极值问题;其次,该方法计算的复杂度不再取决于空间维度,而是取决于样本数,这可能有效地用于解决高维度问题;再次,该方法对稀疏数据不敏感,能更好地捕捉数据的内在特征。缺点是:该方法参数的调整比较困难,分类比较费时。
3.3 神经网络方法
神经网络方法的优点:首先,具有自适应功能,它能根据所提供的数据,通过学习找出输出结果之间的内在联系,从而球的问题的解答;其次,神经网络善于联想、概括、类比和推广,任何局部的操作都不会影响整体效果;再次,具有高速寻找优化解的能力。缺点:该方法根据输入输出的关系训练网络,缺少解释能力,受训练样本影响大,训练过程较慢,不适应大量数据的学习。
3.4 决策树方法
决策树方法的优点是它在学习过程中不需要使用者了解很多背景知识,只要训练样例能够使用属性-结论式的方法表示出来,就能使用该方法。缺点是测试属性的选择对该方法影响较大。
3.5 K-邻近方法
K-邻近方法的优点是该方法训练过程较快,且可随时添加或更新训练文本来调整;缺点是因为需要很大的空间来保存文本,所以它分类的开销很大,K值确定较慢,分类效果较差.
4 文本分类方法效果评价
1) 精确度(查全率):是指通过分类系统正确分类的文本数与实际分类的文本数的比值,其公式如下:
精确度:=
2) 召回率(查全率):是指通过分类系统正确分类的文本数与人工分类中应有的文本数的比值,公式如下:
召回率:=
3) F1测试值:对查权率和查准绿的综合测试
F1测试值:=
参考文献:
[1] 史忠植.知识发现[M].北京:清华大学出版,2002.
[2] 朱明.数据挖掘[M].合肥:中国科技大学出版社,2002.
[3] 王继成,潘金贵,张福炎.web文本挖掘技术研究[J].计算机研究与发展,2000,37(5):513-520.
关键词:数据挖掘;贝叶斯;分类
中图分类号:TP311文献标识码:A文章编号:1009-3044(2008)23-1024-02
The Application of Bayesian Classification
ZHONG Dai-jun
(Chongqing University of Arts and Sciences, Chongqing 402160, China)
Abstract: This paper elaborates the necessity and importance of Bayesian classification when designing system using the technique of artiffisal intelligence,introduced the basic technique ofBayesian classification, given the advantage and disadvantage and future of it. Explained with some sample of theapplicationg of Bayesian classification.
Key words: data mining; bayes; classification
1 引言
数据的丰富带来了对强有力的数据分析工具的需求,大量的数据被描述为“数据丰富,但信息贫乏”。快速增长的海量数据收集、存放在大型和大量的数据库中,没有强有力的工具,理解它们已经远远超出了人的能力。
分类作为数据挖掘的一种模式,可以用于提取描述重要数据的模型,通常是预测分类标号(或离散值)。例如,可以建立一个分类模型,对银行贷款的安全或风险进行分类。许多分类的方法已被机器学习、专家系统、统计学和神经生物学方面的研究者提出。
贝叶斯分类是数据分类中的一个基本技术。在大型数据库,贝叶斯分类已表现出高准确率和高速度。贝叶斯分类中又有朴素贝叶斯分类和贝叶斯信念网络。
2 什么是分类
数据分类(data classification)是一个两步过程。第一步,建立一个模型,描述预定的数据类集。通过分析有属性描述的数据库元组来构造模型。假定每个元组属于一个预定义的类,由一个称作类标号属性(class label attribute)的属性确定。对于分类,数据元组也称作样本、实例或对象。为建立模型而被分析的数据元组形成训练数据集。训练数据集中的单个元组称作训练样本,并随机地由样本群选取。由于提供了每个训练样本的类标号,该步也称作有指导的学习(即模型的学习在被告知每个训练样本属于哪个类的“指导”下进行)。它不同于无指导的学习(或聚类),那里每个训练样本的类标号是未知的,要学习的类集合或数量也可能事先不知道。
通常,学习模型用分类规则、判定树或数学公式的形式提供。例如,给定一个顾客信用信息的数据库,可以学习分类规则,根据他们的信誉度优良或相当好来识别顾客。这些规则可以用来为以后的数据样本分类,也能对数据库的内容提供更好的理解。
第二步,使用模型进行分类。首先评估模型(分类法)的预测准确率。模型在给定测试集上准确率是正确被模型分类的测试样本的百分比。对于每个测试样本,将已知的类标号与该样本的学习模型类预测比较。如果模型的准确率根据训练集评估,评估可能是乐观的,因为学习模型倾向于过分适合数据。
如果认为模型的准确率可以接受,就可以用它对类标号未知的数据元组或对象进行分类。(这种数据在机器学习文献中也称为“未知的”或“先前未见到的”数据)。
分类具有广泛的应用,包括信誉证实、医疗诊断、性能预测和选择购物。
3 Bayesian 分类技术介绍
3.1 Bayesian分类与其他分类技术的比较
基于统计的分类算法主要包括:相似度模型(Rocchio,K一近邻)、概率模型(贝叶斯)、线性模型(LLSF,SVM)、非线性模型(决策树、神经网络)和组合模型.对于这些分类算法,国内外很多研究者进行了客观评测。
分类方法可以根据下列标准进行比较和评估:
预测的准确率:这涉及模型正确地预测新的或先前未见过的数据的类标号的能力。
速度:这涉及产生和使用模型的计算花费。
强壮性:这涉及给定噪声数据或具有空缺值的数据,模型真切预测的能力。
可伸缩性:这涉及给定大量数据,有效地构造模型的能力。
可解释性:上涉及学习模型提供的理解和洞察的层次。
数据库研究界对数据挖掘的分类一直强调可伸缩性。
“贝叶斯分类的效率如何?”理论上讲,与其他所有分类算法相比,贝叶斯分类具有最小的出错率。然而,实践中并非总是如此。这是由于对其应用的假定(如类条件独立性)的不准确性,以及缺乏可用的概率数据造成的。然而,种种实验研究表明,与判定树和神经网络分类算法相比,在某些领域,该分类算法可以与之媲美。
贝叶斯分类还可用用来为不直接使用贝叶斯定理的其他分类算法提供理论判定。例如,在某种假定下,可用证明正如朴素贝叶斯分类一样,许多神经网络和曲线拟合算法输出最大的后验假定。
3.2 贝叶斯分类
3.2.1 贝叶斯定理
设X为一个类别未知的数据样本,H为某个假设,若数据样本X属于一个特定的类别C,那么分类问题就是决定P(H/X),即在获得数据样本X时,H假设成立的概率P(X)是建立在H基础之上的x成立的概率。具体公式描述如下:
3.2.2朴素贝叶斯分类(简单贝叶斯分类)
朴素贝叶斯分类方法[3]是机器学习中常用的方法之一。朴素贝叶斯分类法将训练实例I分解成特征向量W和决策类别变量C。朴素贝叶斯分类法假定特征向量的各分向量间相对于决策变量是相对独立的。对文本分类来说,假设各个单词wi和wj之间两两独立。
设训练样本集分为k类,记为C={C1,C2,…,Ck},则每个类Ci的先验概率为P(Ci), I=1,2, …,k,其值为Ci类的样本数除以训练集总样本数N。对于样本d,其属于Ci类的条件概率是P(d|Ci)。文本d有其包含的特征词表示,即d= (w1, …,wi, …,wm),m是d的特征词个数|d|,wj是第j个特征词。根据贝叶斯定理,Ci类的后验概率为P(Ci|d)
因为P(d)对于所以类均为常数,朴素贝叶斯分类器将未知样本归于类的依据,如下
文档d由其包含的特征词表示,即d=(w1, …,wi, …,wm) ,m是d的特征词个数|d|,wj是第j个特征词,由特征独立性假设,则得
式中P(wj|Ci)表示分类器预测单词wj在类Ci的文档中发生的概率。
3.3 改进的贝叶斯分类在文本分类中的应用
关键的一个技术是特征提取。文本分类征提取的步骤包括:词语切分,词频统计,加权计算和特征选择(二者通常结合在一起进行)。
在文本分类中有很多权重计算和特征选择的公式,如信息增益、期望交叉嫡、文本证据权、zx统计量等,其中最著名的是TFIDF公式.那么,权重计算和特征选择的公式究竟哪个为优呢?其实在这些公式中,关键在于特征选择时的倾向:高频词或稀有词,也就是公式中的P(w)因子起很大作用。因此,在特征选择时,理想的做法应该是充分考虑P(w)因子的作用,最好能兼顾到高权高频词和低频高权词。
有学者对TF*F和TF*IWF*IWFF公式进行了分析并作了一些改进,认为关键词在某类的权重受3个因素的影响:该词在当前类中的出现频率;该词在总语料中的出现频率;该词在不同类别之间出现频率的差异。最终得到关键词在类中的权重计算公式:
类别区别度用来表示某一个词语对于文本分类的贡献程度,即词语的领域区别程度。直观地看,如果一个词语在每一类中都比较均匀地出现,那么它对于分类的贡献几乎为零,类别区别度很低;如果某一词语只在某一类中出现,那么它对于分类的贡献很高,有的几乎可以一词定类,类别区别度也就很高了。比如,虚词“的、我、在”的类别区别度很低,而“魔兽争霸、重仓股、手机操作系统”这样的词语其类别区别度就很高。
3.4 贝叶斯信念网络
朴素贝叶斯分类假定类条件独立,即给定样本的类标号,属性的值相互条件独立。这一假定简化了计算。当假定成立时,与其他所有分类算法相比,朴素贝叶斯分类是最精确的。然而,在实践中,变量之间的依赖可能存在。贝叶斯信念网络(Bayesian belief network)说明联合条件概率分布。它允许在变量的子集间定义类条件独立性。它提供一种因果关系的图形,可用在其上进行学习。这种网络也被称为信念网络、贝叶斯网络和概率网络。
信念网络有两部分定义。第一部分是有向无环图,其每个节点代表一个随机变量,而每条弧代表一个概率依赖。如果一条弧有节点Y到Z,则Y是Z的双亲或直接前驱,而Z是Y的后继。给定双亲,每个变量条件独立于图中的非后继。变量可以是离散的或连续值的。它们可以对应于数据中给定的实际属性,或对应于一个相信形成联系的“隐藏变量”。
“贝叶斯信念网络如何学习?”在学习或训练信念网络时,许多情况都是可能的。网络结构可能预先给定,或由数据导出。网络变量可能是可见的,或隐藏在所有或某些训练样本中。隐藏素净的情况也称为空缺值或不完全数据。
如果网络结构已知并且变量是可见的,训练网络是直截了当的。该过程由计算CPT(条件概率表)组成,与朴素贝叶斯分类涉及的计算概率类似。
当网络结构给定,而某些变量是隐藏的时,则可使用梯度下降方法训练信念网络。目标是学习CPT项的值。设S是s个训练样本X1,X2,…,Xs的集合,Wijk是具有双亲Ui=uik的变量Y=yij的CPT项。Wijk可以看作权,类似于神经网络中隐藏单元的权。权的集合总称为w。这些权被初始化为随机概率值。梯度下降策略采用贪心爬山法。在每次迭代中,修改这些权,并最终收敛到一个局部最优解。
4 结束语
简要阐述了分类在数据挖掘中的位置,着重介绍了贝叶斯分类的基本技术和它的相关应用。
参考文献
[1] 史忠植.知识发现[M].北京:清华大学出版社,2002.
关键词: 情感分析; 情感倾向性; 词典扩充; 电力客服工单; 主动服务
中图分类号: TN915.853?34; V249 文献标识码: A 文章编号: 1004?373X(2017)11?0163?04
Dictionary expansion based sentiment tendency analysis of power customer service order
GU Bin, PENG Tao, CHE Wei
(State Grid Jiangsu Electric Power Company, Nanjing 210000, China)
Abstract: In order to improve the customer satisfaction and active service consciousness of the electric power enterprises effectively, the textual characteristic of the power customer service order is combined to construct the sentiment analysis model of the power customer service order. The keywords of the service order are extracted according to TF?IDF thought. The word2vec training is used to get the word vector of each word. The cosine similarity is calculated to expand the high similarity field vocabulary to the sentiment dictionary. The service order sentiment analysis and text classification are performed. The validity of the method is verified with experimental analysis. The results show that, in comparison with the original sentiment dictionary, the method of dictionary expansion and service order sentiment tendency analysis is superior, has higher accuracy, and can provide a certain reference significance for the customer relation management of power enterprise.
Keywords: sentiment analysis; sentiment tendency; dictionary expansion; power customer service order; active service
0 引 言
随着电力体制改革的逐步深化,配电市场竞争不断加剧,迫切需要供电企业改变传统的思维方式和工作模式,进一步树立市场化服务意识,从客户需求出发,挖掘客户的潜在需求和内在价值,从而提升客户满意度和运营效益。作为与客户交流、沟通的重要窗口,电力企业95598客服系统记录了海量的客户信息,若能彻底挖掘客服工单中的客户特征、情感信息并了解客户的关注焦点,对电力企业和客户都将具有十分重要的意义[1]。
电力客服工单情感倾向性分析可以有效地发掘客户情感信息和需求,可根据客户情感倾向性识别潜在的投诉客户,可根据反馈信息判别某项业务的实施效果等。针对文本情感倾向性分析,现有的理论研究比较侧重于文本特征提取以及采用机器学习方法对文本进行分类,但是基于具体业务特征进行情感词典扩充的研究还比较少,导致情感倾向性计算往往会存在一定的差异,因此,根据电力行业的特c,进行客户服务工单情感词典扩充及情感倾向性的研究非常有必要。
情感分析是指利用文本挖掘、机器学习技术分析挖掘隐藏在文本中的情感信息,并将其分类为积极情感态度和消极情感态度[2]。目前,国内外关于文本情感倾向性分析已经进行了较多的研究工作[3?7],文献[3]基于情感词间的点互信息和上下文约束,提出一种两阶段的领域情感词典构建算法,提升了情感词情感倾向的识别能力。文献[4]研究了基于矩阵投影(MP)和归一化向量(NLV)的文本分类算法,实现对商品评价的情感分析,不仅可以有效识别商品评论情感性倾向,而且提升了识别效率。文献[5]将词级别向量和字级别向量作为原始特征,采用卷积神经网络提取文本特征并进行情感倾向性分析,结果表明字级别向量可取得较高的准确率。文献[6]提出一种词图模型的方法,利用PageRank算法得到情感词的褒贬权值,并将其作为条件随机场模型特征预测情感词倾向,提升了具体语境下预测的准确性,但是针对文本数量较大的情况准确率较低。文献[7]结合句子结构上下文语义关联信息,提出一种基于深度神经网络的跨文本粒度情感分类模型,提升了分类准确率,但该方法只适应于特定领域,泛化能力较低。
鉴于以上研究现状,本文以电力客户服务领域文本特征为突破口,构建了电力客服工单情感分析模型,基于工单关键词提取对原始的情感词典进行扩充,并对工单情感倾向性进行分析,最后,通过算例应用验证了本文所提方法的有效性。
1 相关工作
1.1 情感分类
情感分类技术的主要目标是基于文本数据识别用户所表达的情感信息,并将文本数据分为正类和负类。当前,针对情感分类的研究,主要从监督学习、基于规则方法、跨领域情感分析等方面展_研究,与此同时,针对文本特征的提取和特征情感判别是情感分类研究的两个关键问题。
1.2 Word2vec介绍
word2vec是Google在2013年开源的一款将词表征为实数值向量(word vector)的高效工具,采用的模型有CBOW(Continuous Bag?of?Words,即连续的词袋模型)和Skip?Gram两种,word2vec采用的是Distributed Representation的词向量表示方式,经过对输入集数据进行训练,可以实现将文本词汇转换为维空间向量,然后基于空间向量相似度来表达文本语义相似度,模型输出结果可用于自然语言处理领域相关工作,比如文本聚类、词典扩充、词性分析等。
word2vec生成词向量的基本思想来源于NNLM(Neural Network Language Model)模型,其采用一个三层神经网络构建语言模型,假设某个词的出现只与前个词相关,其原理示意图如图1所示。
图1中,最下方的为前个输入词,并根据其预测下一个词每个输入词被映射为一个向量,为词语的词向量。网络的第一层(输入层)为输入词语组成的维向量网络第二层(隐藏层)计算为偏置因子,使用激活函数tanh;网络第三层(输出层)包含个节点,每个节点表示下一词的未归一化log概率,并使用softmax激活函数将输出值归一化,最后使用随机梯度下降法对模型进行优化。
图1 NNLM原理模型图
模型的目标函数为:
需要满足的约束条件为:
2 电力客服工单情感分析模型
本文以某电力公司客服工单数据为研究对象,在深入理解电力业务及工单文本语义特点的基础上,建立了一种电力客服工单情感分析模型。首先,在进行文本预处理的基础上,对文本进行分词处理并且完成关键词提取;然后,采用word2vec训练工单数据,并基于关键词进行情感词典扩充,构建电力客服领域专用情感词典;最后,进行工单情感倾向性分析。
2.1 工单文本预处理
由于工单文本数据中存在大量价值含量较低甚至没有价值意义的数据,在进行分词、情感分析中会对结果产生较大的影响,那么在文本挖掘之前就必须先进行文本预处理,去除大量没有挖掘意义的工单数据。工单文本预处理工作主要包括:删除未标注业务类型数据、分句处理、文本去重、短句删除等。
分句处理:将工单数据处理成以句子为最小单位,以句尾标点符号为标志分割,包括“,”,“。”,“;”,“!”等符号。
文本去重:就是去除工单数据中重复的部分,常用的方法有观察比较删除法、编辑距离去重法、Simhash算法去重等。
短句删除:删除过短的文本,如“还可以”,“非常好”等,设置文本字符数下限为10个国际字符。
2.2 电力客户服务领域情感词典构建
2.2.1 分词
本文采用python的jieba分词工具对数据集进行分词,并完成词性标注和去除停用词,由于情感分析通常由名词、形容词、副词和连词等反映出来,因此删除词性为动词的词汇。jieba中文分词工具包包含三种分词模式:精确模式、全模式和搜索引擎模式,综合分词效果及后文的研究,本文选择精确模式进行分词,三种模式的分词效果如表1所示。
另外,在实际的分词过程中,出现了个别分词结果与实际的语义不符,原因是字典中缺少相关的专有名词,或者是这些词语的词频较低,比如“客户/咨询/抄/表示/数等/信息”,“客户/查户/号”,“变压器/重/过载”,“查/分/时/电价”等,因此,需要对原有词典进行更新。python中采用jieba.load_userdict(dict.txt)语句添加自定义词典,其中dict.txt是保存字典内容的文件,其格式为每一行分三部分:一部分为词语;另一部分为词频;最后为词性(可省略),用空格隔开。
2.2.2 关键词提取
构建电力客户服务领域专属情感词典,需要尽可能保证领域词典的多样性,关键词的提取要求一方面能够尽量反应出这个特征项所属的类别,另一方面能够把自身属于的类别与其他类别有效地区分开来,依据此原理,本文采用TF?IDF思想进行电力客户服务领域关键词的提取,关键词选取的权重决定了情感词典的多样性,为下文情感词典的扩充做好基础,算法原理如下。
将工单文档和特征项构建成二维矩阵,各条工单的特征向量可表示为:
式中:表示第个工单中第个特征中的词频。则与为:
式中:表示语料库中的文件总数;表示包含词语的文件总数,防止分母为零的情况,通常对分母做+1的处理。因此,的计算公式为:
实际应用中,依据维度的大小确定相应的权重大小,这样就形成了代表语料特征的关键词集。
2.2.3 基于word2vec进行情感词典扩充
随着经济技术的发展及客户文化的差异,不同的客户通常使用不同的词汇描述同一个对象特征,且电力行业中存在许多专用词汇,同样也表达了一定情感,但这些词脱离于现有的情感词典,因此,有必要对现有的情感词典进行扩充,进而提升工单情感倾向性分析的准确性[8]。选取中国知网情感词集和大连理工大学林鸿飞教授整理和标注的中文情感词汇本体库作为基础的情感词典,然后依据权重较大的关键词对原有词典进行扩充[9]。基于上文电力客户服务工单中提取的关键词,采用word2vec工具对工单数据集进行训练,根据CBOW模型或Skip?Gram模型训练出每个词的词向量,并通过计算余弦相似度得到文本语义上的相似度,并将相似度较高的词语加入到情感词典中。
依据上文分词后得到的工单文本数据,采用Linux Version2.6环境对数据进行训练,操作命令如下:
./word2vec ?train data95598.txt ?output vectors_95598data.bin ?cbow 0 ?size 200 ?winodw 5 ?negative 0 ?hs 1 ?sample le?3 threads 12 ?binary 1
其中,data95598.txt为输入数据集;vectors_95598data.bin为模型输出文件;采用Skip?Gram模型进行训练,词向量维度设置为200;训练窗口大小设置为5;-sample表示采样的阈值,训练结果采用二进制方式存储。这样,得到的模型文件中就包含了每个词的词向量。
采用余弦相似度计算关键词的相似词,即基于生成的词向量计算两个维向量的相似度,因为word2vec本身就是基于上下文语义生成的词向量,因此,余弦值越大,表明两个词语的语义越相似。向量与的余弦计算公式如下:
通过distince命令计算输入词与其他词的余弦相似度,经过排序返回相似词列表,再经过人工筛选,将这些词加入到原有情感词典中,实现对原有情感词典的扩充。
2.3 工单情感倾向性分析
工单情感倾向性分析是基于构建的情感词典,计算每个客服工单的情感分值,从而判断工单的情感倾向性。通过上文处理,每一个客服工单都可以被分割成一个个子句片段,表示为每个子句片段由一系列分词后的词语构成,提取每个句子的情感词、否定词等,表示为依据情感词典中给定词的极性值计算每个子句的情感值,分别算每个句子的正向和负向情感分值,计算公式如下:
式中:SenSum表示某个客服工单的情感分值;表示第个子句中第个正向情感词的极性值;表示第个子句中第个负向情感词的极性值。
在否定子句中,当为偶数时,否定子句情感为正;当为奇数时,否定子句情感极性为负。对所有的子句情感分值求和并求均值,就得到了整个客服工单的情感值,进而判断客服工单的情感倾向性,若SenSum为正,表示工单情感为正向;否则,工单情感为负向。
3 实验分析
3.1 实验数据准备
本文的实验环境基于Linux系统,采用python语言进行算法的实现,抽取某电力公司95598客服工单数据作为研究对象,运用jieba包进行中文分词处理,并采用word2vec训练数据生成词向量及扩充情感词典。由于工单数据是按照业务类型生成的,因此选取业务类型为表扬的工单作为正类,选取业务类型为投诉的作为负类,其中,正类和负类数据比例为21,共得到20 000条数据作为实验数据集,随后进行情感倾向性分析,随机选择70%的数据作为训练集,30%的数据作为测试集。
3.2 评价指标
当前针对文本分类效果评估有许多方法,本文选择准确率(precision)、召回率(recall)和值进行文本情感分类效果的评估,准确率是对分类精确性的度量,召回率是对分类完全性的度量,值越大说明分类效果越好,准确率和召回率是一组互斥指标,值是将二者结合的一个度量指标,值越大,分类效果越好,并将通过本文情感分析模型得到的结果与业务员标注的类型做对比分析。它们的计算公式如下:
3.3 实验结果及分析
本文基于抽取到的客服工单数据,结合设计的电力客服工单情感分析模型,实现对电力客户服务领域情感词典的扩充,并基于构建的电力客服领域专属词典进行工单情感倾向性分析,70%的数据用于训练word2vec并进行情感词典的扩充,30%的数据用于测试工单情感分类的准确性。测试集共包含工单数6 000条,其中正类工单3 895条,负类工单2 105条。将采用本文情感分析模型得到的结果与原始基础情感词典得到的结果进行对比分析,见表2。
由表2可知,采用本文构建的电力客服工单词典针对正向和负向的情感词都有较高的准确率、召回率和值,由此可知,本文设计的电力客服工单情感分析模型是合理的,且具有明显的性能优势。
4 结 语
本文设计了一种电力客服工单情感分析模型,构建了电力客服领域情感专用词典并进行工单情感倾向性分析。采用word2vec工具对采集到的数据进行训练,并用测试集数据对本文提出的模型进行验证分析,结果表明,本文所提方法具有一定的合理性和可行性,可为电力企业客户关系管理提供一定的参考意义,促进企业客户满意度及运营效益的提升。此外,本文主要研究了基于构建的电力客服专用情感词典进行客户情感倾向性分析,但是对于无监督性学习方法情感倾向性分析以及情感强度的分析还有待进一步研究。
参考文献
[1] 李胜宇,高俊波,许莉莉.面向酒店评论的情感分析模型[J].计算机系统应用,2017,26(1):227?231.
[2] SINGH VK, PIRYANI R, UDDIN A, et al. Sentiment analysis of movie reviews: a new feature?based heuristic for aspect?level sentiment classification [C]// Proceedings of 2013 International Multi?Conference on Automation, Computing, Communication, Control and Compressed Sensing (iMac4s). Kottayam: IEEE, 2013: 712?717.
[3] 郗亚辉.产品评论中领域情感词典的构建[J].中文信息学报,2016,30(5):136?144.
[4] 钟将,杨思源,孙启干.基于文本分类的商品评价情感分析[J].计算机应用,2014,34(8):2317?2321.
[5] 刘龙飞,杨亮,张绍武,等.基于卷积神经网络的微博情感倾向性分析[J].中文信息学报,2015,29(6):159?165.
[6] 黄挺,姬东鸿.基于图模型和多分类器的微博情感倾向性分析[J].计算机工程,2015,41(4):171?175.
[7] 刘金硕,张智.一种基于联合深度神经网络的食品安全信息情感分类模型[J].计算机科学,2016,43(12):277?280.
2.基于检测树的抗原合法性快速检测方法孙秋丽,韩芳溪,王晓琳,SUNQiu-li,HANFang-xi,WANGXiao-lin
3.运用改进的SPEA2算法优化网格工作流调度方法李金忠,夏洁武,曾劲涛,王翔,LIJin-zhong,XIAJie-wu,ZENGJin-tao,WANGXiang
4.一种基于AR模型的非线性盲源提取方法及其应用蔡英,王刚,CAIYing,WANGGang
5.基于B样条FFD模型配准的虹膜图像融合方法吴国瑶,马立勇,WUGuo-yao,MALi-yong
6.关于T范数的广义模糊子坡(理想)芮眀力,廖祖华,胡淼菡,陆金花,RUIMing-li,LIAOZu-hua,HUMiao-han,LUJin-hua
7.融合PSO算法思想的进化算法刘建华,黄添强,严晓明,LIUJian-hua,HUANGTian-qiang,YANXiao-ming
8.基于偏最小二乘降维的分类模型比较曾雪强,李国正,ZENGXue-qiang,LIGuo-zheng
9.OPHCLUS:基于序关系保持的层次聚类算法雷小锋,庄伟,程宇,丁世飞,谢昆青,LEIXiao-feng,ZHUANGWei,CHENGYu,DINGShi-fei,XIEKun-qing
10.采样特异性因子及异常检测孙静宇,余雪丽,陈俊杰,李鲜花,SUNJing-yu,YUXue-li,CHENJun-jie,LIXian-hua
11.一种基于SVM的快速特征选择方法戴平,李宁,DAIPing,LINing
12.一种ReliefF特征估计方法在无监督流形学习中的应用谭台哲,梁应毅,刘富春,TANTai-zhe,LIANGYing-yi,LIUFu-chun
13.基于agent的模式表示模型AIM程显毅,朱倩,管致紧,CHENGXian-yi,ZHUQian,GUANZhi-jin
14.歌词与内容相结合的流行音乐结构分析梁塽,许洁萍,李欣,LIANGShuang,XUJie-ping,LIXin
15.基于免疫网络的无监督式分类算法梁春林,彭凌西,LIANGChun-lin,PENGLing-xi
16.舌体图像分割技术的实验分析与改进李国正,史淼晶,李福凤,王忆勤,LIGuo-zheng,SHIMiao-jing,LIFu-feng,WANGYi-qin
17.基于退火遗传算法的NURBS曲线逼近刘彬,张仁津,LIUBin,ZHANGRen-jin
18.基于Harris角点的木材CT图像配准张训华,业宁,王厚立,ZHANGXun-hua,YENing,WANGHou-li
19.基于词语量化相关关系的句际相关度计算钟茂生,刘慧,邹箭,ZHONGMao-sheng,LIUHui,ZOUJian
20.iCome:基于多义性的图像检索系统陈虎,黎铭,姜远,周志华,CHENHu,LIMing,JIANGYuan,ZHOUZhi-hua
21.基于字的词位标注汉语分词于江德,睢丹,樊孝忠,YUJiang-de,SUIDan,FANXiao-zhong
22.不均衡问题中的特征选择新算法:Im-IG尤鸣宇,陈燕,李国正,YOUMing-yu,CHENYan,LIGuo-zheng
23.基于流形学习的图像检索算法研究贺广南,杨育彬,HEGuang-nan,YANGYu-bin
24.基于BIRCH的木材缺陷识别吴东洋,业宁,WUDong-yang,YENing
25.基于自扩展与最大熵的领域实体关系自动抽取雷春雅,郭剑毅,余正涛,毛存礼,张少敏,黄甫,LEIChun-ya,GUOJian-yi,YUZheng-tao,MAOCun-li,ZHANGShao-min,HUANGPu
26.层次聚类算法的有效性研究胡晓庆,马儒宁,钟宝江,HUXiao-qing,MARu-ning,ZHONGBao-jiang
27.基于相异性和不变特征的半监督图像检索宿洪禄,李凡长,SUHong-lu,LIFan-zhang
28.基于方向场信息的指纹图像质量评测李铁军,刘倩,张宇,LITie-jun,LIUQian,ZHANGYu
29.一种基于概念格的用户兴趣预测方法茅琴娇,冯博琴,李燕,潘善亮,MAOQin-jiao,FENGBo-qin,LIYan,PANShan-liang
30.基于鲁棒性神经模糊网络的脉冲噪声滤波算法李岳阳,王士同,LIYue-yang,WANGShi-tong
31.CAN2:构件组合式神经网络吴和生,王崇骏,谢俊元,WUHe-sheng,WANGChong-jun,XIEJun-yuan
1.基于半马尔可夫对策的多机器人分层强化学习沈晶,刘海波,张汝波,吴艳霞,程晓北,SHENJing,LIUHai-bo,ZHANGRu-bo,WUYan-xia,CHENGXiao-bei
2.文本分类中一种新的特征选择方法王法波,许信顺,WANGFa-bo,XUXin-shun
3.模因机制下人类元音系统演化的计算模型云健,江荻,潘悟云,YUNJian,JIANGDi,PANWu-yun
4.基于ICA的语音信号表征和特征提取方法董治强,刘琚,邹欣,杜军,DONGZhi-qiang,LIUJu,ZOUXin,DUJun
5.预测状态表示综述王历,高阳,王巍巍,WANGLi,GAOYang,WANGWei-wei
6.基于多天线的机器人定位和高效节能无线互联网络孙毅,肖继忠,FlavioCabrera-Mora,SUNYi,XIAOJi-zhong,FlavioCabrera-Mora
7.基于均值距离的图像分割方法王新沛,刘常春,白曈,WANGXin-pei,LIUChang-chun,BAITong
8.整车物流企业联盟的协同收益分配模型刘鹏,吴耀华,许娜,LIUPeng,WUYao-hua,XUNa
9.蒙特卡罗方法模拟生物组织中光的分布高迪,魏守水,任晓楠,崔建强,徐从娟,GAODi,WEIShou-shui,RENXiao-nan,CUIJian-qiang,XUCong-juan
10.变时滞神经网络的时滞相关全局渐近稳定新判据刘国彩,刘玉常,鞠培军,LIUGuo-cai,LIUYu-chang,JUPei-jun
11.用H∞控制器抑制Buck变换器中的参数扰动贤燕华,冯久超,XIANYan-hua,FENGJiu-chao
12.云神经网络的函数逼近能力于少伟,YUShao-wei
13.一种胶原支架材料的结构与性能表征胡顺鹏,赵洪石,王冠聪,曹成波,刘宏,李文波,杨晓宇,HUShun-peng,ZHAOHong-shi,WANGGuan-cong,CAOCheng-bo,LIUHong,LIWen-bo,YANGXiao-yu
14.TiO2/ZnO纳米光催化剂的制备及性能研究徐青,吕伟,XUQing,L(U)Wei
15.溶剂热法合成CeO2纳米微晶于丽丽,刘宝,钱立武,钱雪峰,YULi-li,LIUBao,QIANLi-wu,QIANXue-feng
16.碳纤维用流化炉计算机控制与性能测试高学平,朱波,于宽,GAOXue-ping,ZHUBo,YUKuan
17.地铁隧道衬砌管片承载力试验及计算方法周海鹰,李立新,陈廷国,ZHOUHai-ying,LILi-xin,CHENTing-guo
18.济南城市防洪汛情预警等级判定方法王育奎,徐帮树,李术才,WANGYu-kui,XUBang-shu,LIShu-cai
19.分散性土的鉴别及改性试验李华銮,高培法,穆乃敏,王琳,LIHua-luan,GAOPei-fa,MUNai-min,WANGLin
20.大跨度钢管拱吊装中温度荷载效应分析及应用孙国富,李术才,张波,SUNGuo-fu,LIShu-cai,ZHANGBo
21.地震作用下大型桥梁群桩基础动水压力效应分析李富荣,何山,王志华,LIFu-rong,HEShan,WANGZhi-hua
22.两性荧光增白剂的合成及其性能杨晓宇,曹成波,周晨,胡顺鹏,YANGXiao-yu,CAOCheng-bo,ZHOUChen,HUShun-peng
23.[BPy]Br和[BMIm]Br微波辅助合成动力学徐鸣,XUMing
24.聚合物/表面活性剂二元体系油水乳化过程动态表征方法研究马宝东,高宝玉,卢磊,张永强,MABao-dong,GAOBao-yu,LULei,ZHANGYong-qiang
25.天然气发动机三效催化剂张强,李娜,李国祥,ZHANGQiang,LINa,LIGuo-xiang
26.单轴并联式混合动力客车动力总成匹配牛礼民,赵又群,杨攀,李佳,NIULi-min,ZHAOYou-qun,YANGPan,LIJia
27.二级增压系统中高压级压气机性能研究何义团,HEYi-tuan
28.高精度电阻数据自动采集与动态显示系统设计王泽静,秦敬玉,米春旭,WANGZe-jing,QINJing-yu,MIChun-xu
29.循环泵启动瞬间排水系统壅水数值模型分析高坤华,张成义,胡亦工,徐士倩,郑冠军,王伟,GAOKun-hua,ZHANGCheng-yi,HUYi-gong,XUShi-qian,ZHENGGuan-jun,WANGWei
30.基于对偶树复小波-Contourlet变换的自适应多传感图像融合算法赵文忠,ZHAOWen-zhong
31.激活能测试装置设计及微晶硅薄膜激活能测试陈庆东,王俊平,张宇翔,卢景霄,CHENQing-dong,WANGJun-ping,ZHANGYu-xiang,LUJing-xiao
32.Mintegration:一种针对大规模数据的并发数据集成方案陈胜利,李俊奎,刘小东,CHENSheng-li,LIJun-kui,LIUXiao-dong
1.基于极大圆盘引导的形状插值实现三维表面重建秦通,孙丰荣,王丽梅,王庆浩,李新彩,QINTong,SUNFeng-rong,WANGLi-mei,WANGQing-hao,LIXin-cai
2.结构大间隔单类分类器冯爱民,刘学军,陈斌,FENGAi-min,LIUXue-jun,CHENBin
3.基于蚁群系统的聚类算法研究沙露,鲍培明,李尼格,SHALu,BAOPei-ming,LINi-ge
4.一种采用动态策略的模拟捕鱼优化方法王勇,庞兴,WANGYong,PANGXing
5.一种基于微粒群思想的蚁群参数自适应优化算法夏辉,王华,陈熙,XIAHui,WANGHua,CHENXi
6.基于雷达图像的运动目标形态检测及跟踪技术刘文亮,朱维红,陈涤,张泓泉,LIUWen-liang,ZHUWei-hong,CHENDi,ZHANGHong-quan
7.人机交互中基于可穿戴式计算的手势和活动辨识盛卫华,祝纯,SHENGWei-hua,ZHUChun
8.基于炼油过程生产特性的优化调度模型李明,李歧强,郭庆强,丁然,LIMing,LIQi-qiang,GUOQing-qiang,DINGRan
9.一种新型微流体主动混合器的仿真与分析徐昊,魏守水,张敬涛,XUHao,WEIShou-shui,ZHANGJing-tao
10.混合变时滞二重边复杂网络自适应同步反馈控制赵永清,江明辉,ZHAOYong-qing,JIANGMing-hui
11.超高强度钢板热冲压及模内淬火工艺的发展现状李辉平,赵国群,张雷,贺连芳,LIHui-ping,ZHAOGuo-qun,ZHANGLei,HELian-fang
12.莱钢120吨转炉冶炼超低硫钢工艺优化王庆春,李木森,范树璐,张继军,WANGQing-chun,LIMu-sen,FANShu-lu,ZHANGJi-jun
13.热加工材料动态再结晶介观组织模拟模型的研究进展王丽君,关小军,禹宝军,赵健,WANGLi-jun,GUANXiao-jun,YUBao-jun,ZHAOJian
14.模拟体液中类骨羟基磷灰石的合成张爱娟,ZHANGAi-juan
15.洋葱状富勒烯的硬脂酸修饰姚延立,马国利,YAOYan-li,MAGuo-li
16.Eu3+掺杂生物多孔硅酸钙发光材料性能赵其斌,周淑君,范同祥,丁剑,张获,ZHAOQi-bin,CHOWSuk-kwun,FANTong-xiang,DINGJian,ZHANGDi
17.Al-Zn-Mg-(Sc)-(Zr)合金时效初期微结构演化的MonteCarlo模拟孙媛,王桂青,SUNYuan,WANGGui-qing
18.地下工程突水机理及其研究最新进展李利平,路为,李术才,张庆松,许振浩,石少帅,LILi-ping,LUWei,LIShu-cai,ZHANGQing-song,XUZhen-hao,SHIShao-shuai
19.基于趋势检查法的遗传神经网络模型及工程应用邱道宏,张乐文,崔伟,苏茂鑫,孙怀凤,QIUDao-hong,ZHANGLe-wen,CUIWei,SUMao-xin,SUNHuai-feng
20.新陈代谢GM(1,1)模型在建筑物沉降预测中的应用边培松,王登杰,于少华,BIANPei-song,WANGDeng-jie,YUShao-hua
21.地铁管片抗裂度及裂缝宽度试验和计算方法周海鹰,李立新,陈廷国,ZHOUHai-ying,LILi-xin,CHENTing-guo
22.信息动态
23.FRP-螺栓联合加固技术锚固参数的研究管延华,苗海涛,宋修广,GUANYan-hua,MIAOHai-tao,SONGXiu-guang
24.多孔安山岩在沥青路面中的应用研究郭德栋,许宏妹,李小刚,GUODe-dong,XUHong-mei,LIXiao-gang
25.基于自治域的RBAC访问控制模型龙军,曾小仨,张祖平,LONGJun,ZENGXiao-sa,ZHANGZu-ping
26.无线传感器网络节点定位算法夏少波,许娥,XIAShao-bo,XUE
27.微切削加工A17050-T7451过程切屑形貌及尺度效应研究周军,李剑峰,孙杰,ZHOUJun,LIJian-feng,SUNJie
28.乙酸乙酯生成过程的间歇反应精馏的模拟和优化冯震恒,张忠诚,FENGZhen-heng,ZHANGZhong-cheng
1.知识保持的嵌入方法张道强,ZHANGDao-qiang
2.基于多级结构相似度的快速指纹匹配算法杨栋,杨公平,尹义龙,张利明,YANGDong,YANGGong-ping,YINYi-long,ZHANGLi-ming
3.基于混沌动力学模型的群体目标检测与分类乔伟,王汇源,吴晓娟,刘鹏威,QIAOWei,WANGHui-yuan,WUXiao-juan,LIUPeng-wei
4.基于图像分解的敦煌壁画图像修复方法黄伟,王书文,杨筱平,贾建芳,HUANGWei,WANGShu-wen,YANGXiao-ping,JIAJian-fang
5.基于模糊神经网络的移动机器人自适应行为设计李贻斌,李彩虹,,LIYi-bin,LICai-hong,SONGYong
6.约束环境下的多移动机器人自适应伸展算法谈金东,陈曦,TANJin-dong,CHENXi
7.配送中心分拣订单合批策略的研究王艳艳,吴耀华,孙国华,于洪鹏,WANGYan-yan,WUYao-hua,SUNGuo-hua,YUHong-peng
8.基于四元数MUSIC的双极化散射中心参量提取蔡倩,汪飞,张焕春,CAIQian,WANGFei,ZHANGHuan-chun
9.双轴压缩试验中砂土剪切带形成的离散元模拟分析蒋明镜,李秀梅,JIANGMing-jing,LIXiu-mei
10.长期交通荷载作用下粉砂土累积变形本构模型构建及数值积分格式张宏博,苗海涛,宋修广,ZHANGHong-bo,MIAOHai-tao,SONGXiu-guang
11.多元多方程地应力反演与工程应用研究岳晓蕾,李术才,陈启辉,葛雁平,YUEXiao-lei,LIShu-cai,CHENQi-hui,GEYan-ping
12.蒸压粉煤灰多孔砖砌体偏心受压承载力试验研究徐春一,刘明,王广林,XUChun-yi,LIUMing,WANGGuang-lin
13.二层框架填充墙出平面反应分析的试验研究程云,刘明,刘晓伟,CHENGYun,LIUMing,LIUXiao-wei
一、数据挖掘的层次
一直想整理下对数据挖掘不同层次的理解,这也是这两年多的时间里面,和很多金融领域、互联网做数据相关工作的小伙伴,聊天交流的一些整理和归纳。大概可以分为四类。
(一)纯粹的数据加工
侧重于变量加工和预处理,从源系统或数据仓库,对相关数据进行提取、加工、衍生处理,生成各种业务表。然后,以客户号为主键,把这些业务表整合汇总,最终可以拉出一张大宽表,这张宽表就可以称之为“客户画像”。即,有关客户的很多变量和特征的集合。
在这个阶段,主要的数据加工工具为SQL和SASbase。
(二)傻瓜式的挖掘工具
较为典型的就是SASEM和clementine,里面嵌入很多较为传统成熟的算法、模块和节点(例如逻辑回归、决策树、SVM、神经网络、KNN、聚类等)。通过鼠标的托拉拽,流程式的节点,基本上就可以实现你挖掘数据的需求。
傻瓜式操作的优点就是使得数据挖掘,入手非常快,较为简单。但是,也存在一些缺陷,即,使得这个挖掘过程变得有点单调和无趣。没办法批量运算模型,也没办法开发一些个性化的算法和应用。用的比较熟练,并且想要进一步提升的时候,建议把这两者抛弃。
(三)较为自由的挖掘工具
较为典型的就是R语言和Python。这两个挖掘工具是开源的,前者是统计学家开发的,后者是计算机学家开发的。
一方面,可以有很多成熟的、前沿的算法包调用,另外一方面,还可以根据自己的需求,对既有的算法包进行修改调整,适应自己的分析需求,较为灵活。此外,Python在文本、非结构化数据、社会网络方面的处理,功能比较强大。
(四)算法拆解和自行开发
一般会利用python、c、c++,自己重新编写算法代码。例如,通过自己的代码实现逻辑回归运算过程。甚至,根据自己的业务需求和数据特点,更改其中一些假定和条件,以便提高模型运算的拟合效果。尤其,在生产系统上,通过C编写的代码,运行速度比较快,较易部署,能够满足实时的运算需求。
一般来说,从互联网的招聘和对技能的需求来说,一般JD里面要求了前三种,这样的职位会被称为“建模分析师”。但是如果增加上了最后一条,这样的职位或许就改称为“算法工程师”。
二、模型的理解:传统的和时髦的
据理解,模型应该包括两种类型。一类是传统的较为成熟的模型,另外一类是较为时髦有趣的模型。对于后者,大家会表现出更多的兴趣,一般是代表着新技术、新方法和新思路。
(一)传统的模型
传统的模型,主要就是为了解决分类(例如决策树、神经网络、逻辑回归等)、预测(例如回归分析、时间序列等)、聚类(kmeans、系谱、密度聚类等)、关联(无序关联和有序关联)这四类问题。这些都是较为常规和经典的。
(二)时髦有趣的模型
比较有趣、前沿的模型,大概包括以下几种类型,即社会网络分析、文本分析、基于位置的服务(Location-BasedService,LBS)、数据可视化等。
它们之所以比较时髦,可能的原因是,采用比较新颖前沿的分析技术(社会网络、文本分析),非常贴近实际的应用(LBS),或者是能够带来更好的客户体验(数据可视化)。
(1)社会网络的应用
传统的模型将客户视为单一个体,忽视客户之间的关系,基于客户的特征建立模型。社会网络是基于群体的,侧重研究客户之间的关联,通过网络、中心度、联系强度、密度,得到一些非常有趣的结果。典型的应用,例如,关键客户的识别、新产品的渗透和扩散、微博的传播、风险的传染、保险或信用卡网络团伙欺诈、基于社会网络的推荐引擎开发等。
(2)文本挖掘的应用
文本作为非结构化数据,加工分析存在一定的难度,包括如何分词、如何判断多义词、如何判断词性,如何判断情绪的强烈程度。典型的应用,包括搜索引擎智能匹配、通过投诉文本判断客户情绪、通过舆情监控品牌声誉、通过涉诉文本判定企业经营风险、通过网络爬虫抓取产品评论、词云展示等。
文本和湿人。关于文本分析,最近朋友圈有篇分享,很有意思,号称可以让你瞬间变成湿人。原理很简单,就是先把《全宋词》分词,然后统计频数前100的词语。然后你可以随机凑6个数(1-100),这样就可以拼凑出两句诗。比如,随机写两组数字,(2,37,66)和(57,88,33),对应的词语为(东风、无人、黄花)和(憔悴、今夜、风月)。组成两句诗,即“东风无人黄花落,憔悴今夜风月明”。还真像那么一回事,有兴趣可以玩一玩。
(3)LBS应用
即基于位置的服务,即如何把服务和用户的地理位置结合。当下的APP应用,如果不能很好地和地理位置结合,很多时候很难有旺盛的生命力。典型的APP,例如大众点评(餐饮位置)、百度地图(位置和路径)、滴滴打车、微信位置共享、时光网(电影院位置)等服务。此外,银行其实也在研究,如何把线上客户推送到距离客户最近的网点,完成O2O的完美对接,从而带来更好的客户体验。
(4)可视化应用
基于地图的一些可视化分析,比较热门,例如,春节人口迁徙图、微信活跃地图、人流热力图、拥堵数据的可视化、社会网络扩散可视化等。
如果你想让你的分析和挖掘比较吸引眼球,请尽量往以上四个方面靠拢。
三、互联网和金融数据挖掘的差异
博士后两年,对银行领域的数据挖掘有些基本的了解和认识,但是面对浩瀚的数据领域,也只能算刚刚入门。很多时候,会很好奇互联网领域,做数据挖掘究竟是什么样的形态。
很早之前,就曾在知乎上提了个问题,“金融领域的数据挖掘和互联网中的数据挖掘,究竟有什么的差异和不同”。这个问题挂了几个月,虽有寥寥的回答,但是没有得到想要的答案。
既然没人能够提供想要的答案,那就,根据自己的理解、一些场合的碰壁、以及和一些互联网数据小伙伴的接触,试图归纳和回答下。应该有以下几个方面的差异。
(一)“分析”和“算法”
在互联网中,“分析”和“算法”,分得非常开,对应着“数据分析师”和“算法工程师”两种角色。前者更多侧重数据提取、加工、处理、运用成熟的算法包,开发模型,探索数据中的模式和规律。后者更多的是,自己写算法代码,通过C或python部署到生产系统,实时运算和应用。
在银行领域,基本上,只能看到第一种角色。数据基本上来源于仓库系统,然后运用SQL、SAS、R,提取、加工、建模和分析。
(二)数据类型
数据类型,主要包括“结构化”和“非结构化”两类数据。前者就是传统的二维表结构。一行一条记录,一列一个变量。后者包括文本、图像、音频、视频等。
银行里面的数据,更多的是结构化数据,也有少量的非结构化数据(投诉文本、贷款审批文本等)。业务部门对非结构化数据的分析需求比较少。因此,在非结构化数据的分析建模方面,稍显不足。
互联网,更多的是网络日志数据,以文本等非结构化数据为主,然后通过一定的工具将非结构化数据转变为结构化数据,进一步加工和分析。
(三)工具、存储和架构
互联网,基本上是免费导向,所以常常选择开源的工具,例如MySql、R、Python等。常常是基于hadoop的分布式数据采集、加工、存储和分析。
商业银行一般基于成熟的数据仓库,例如TD,以及一些成熟的数据挖掘工具,SASEG和EM。
(四)应用场景
在应用场景上,两者之间也存在着非常大的差异。
(1)金融领域
金融领域的数据挖掘,不同的细分行业(如银行和证券),也是存在差别的。
银行领域的统计建模。银行内的数据挖掘,较为侧重统计建模,数据分析对象主要为截面数据,一般包括客户智能(CI)、运营智能(OI)和风险智能(RI)。开发的模型以离线为主,少量模型,例如反欺诈、申请评分,对实时性的要求比较高。
证券领域的量化分析。证券行业的挖掘工作,更加侧重量化分析,分析对象更多的是时间序列数据,旨在从大盘指数、波动特点、历史数据中发现趋势和机会,进行短期的套利操作。量化分析的实时性要求也比较高,可能是离线运算模型,但是在交易系统部署后,实时运算,捕捉交易事件和交易机会。
(2)互联网
互联网的实时计算。互联网的应用场景,例如推荐引擎、搜索引擎、广告优化、文本挖掘(NLP)、反欺诈分析等,很多时候需要将模型部署在生产系统,对实时响应要求比较高,需要保证比较好的客户体验。
四、数据挖掘在金融领域的典型应用
别人常常会问,在银行里面,数据挖掘究竟是做什么的。也常常在思考如何从对方的角度回答这个问题。举几个常见的例子做个诠释。
(一)信用评分
申请评分。当你申请信用卡、消费贷款、经营贷款时,银行是否会审批通过,发放多大规模的额度?这个判断很可能就是申请评分模型运算的结果。通过模型计算你的还款能力和还款意愿,综合评定放款额度和利率水平。
行为评分。当你信用卡使用一段时间后,银行会根据你的刷卡行为和还款记录,通过行为评分模型,判断是否给你调整固定额度。
(二)个性化产品推荐
很多时候,你可能会收到银行推送的短信或者接到银行坐席的外呼,比如,向你推荐某款理财产品。这背后,很可能就是产品响应模型运算的结果。银行会通过模型,计算你购买某款理财产品的概率,如果概率比价高的话,就会向你推送这款理财产品。
此外,很多时候,不同的客户,银行会个性化的推荐不同的产品,很可能就是产品关联分析模型运算的结果。
关键词:Hashtag推荐;K最近邻;文本表示;深度学习
中图分类号: G252 文献标识码: A DOI: 10.11968/tsygb.1003-6938.2015057
Abstract According to the summary of various Hashtag recommendation technologies and short text representation methods, this paper uses a Hashtag recommendation method based on K-Nearest Neighbor. Firstly, we represent the texts of microblog into vectors, calculate similarities between user’s text and training text. Then we extract the most similar blogs from the corpora. The results of four text representation methods named Vector space model, Latent semantic analysis, Latent Dirichlet allocation, Deep Learning for Hashtag recommendation are compared with each other. We use H7N9 Corpus on Twitter as our test dataset. Experimental results show that deep learning text representation method has achieved the best performance among all the methods.
Key words Hashtag Recommendation; K-Nearest Neighbor; Text Representation; Deep Learning
1 引言
当前,各种主流微博平台都提供Hashtag标注功能,如关于马航坠机事件的Hashtag在Twitter中为“#MH370”,在新浪微博中为“#MH370#”,虽然不同微博平台中Hashtag的具体标记形式可能不同,但功能基本相同,都具有主题标注和话题参与的功能[1-3]。主题标注功能指Hashtag能够表达一条微博中的主题信息;话题参与功能指用户使用Hashtag参与同一个话题的讨论。在微博平台中,上述功能使Hashtag在信息组织和信息检索方面具有优势,因此越来越多的学者开始深入研究Hashtag[4-6]。但在实际的微博数据中Hashtag的标注数量较少,这大大降低了Hashtag的信息检索和信息组织的效率。Potts主要有两种因素降低了Hashtag的标注数量和标注质量:(1)大部分用户不对自己的微博标注Hashtag;(2)有些用户随意的标注Hashtag,出现许多难以理解的和使用的Hashtag,导致信息传播效率降低[7]。因此,为了提高Hashtag的标注数量和质量,学者们提出了多种不同的Hashtag推荐方法,为用户自动推荐合适的Hashtag。
当前,Hashtag推荐方法主要有基于频次和相似度的方法、基于机器学习的方法和基于主题模型的方法等。K最近邻作为一种经典的文本分类方法,无需标注语料,并且无需花费大量时间训练模型。因此,本文尝试将K最近邻方法用于微博的Hashtag推荐。由于传统的权重计算方法和文本表示方法不适合短文本的处理[8]。为此,本文对比了向量空间模型(Vector Space Model)、潜在语义分析(Latent Semantic Analysis)、隐含狄利克雷分布模型(Latent Dirichlet Allocation)和基于深度学习(Deep Learning)的文本表示等四种方法,以选择适合于基于KNN的Hashtag推荐任务的文本表示方法。
2 Hashtag推荐相关研究概述
Hashtag推荐主要依据文本内容与用户信息,目的是从微博文本中抽取关键词或者直接提取已有的Hashtag推荐给用户,用以提高Hashtag的标注数量和质量。在Hashtag推荐中,对微博短文本预处理和表示的效果直接影响到最后结果的好坏,因此需要对微博文本进行预处理,并深入挖掘文本,以表示出词汇之间的语义信息。
2.1 Hashtag推荐方法
Hashtag推荐技术包括基于频次或相似度排序方法、分类算法、主题模型、协同过滤、神经网络等方法。其中按频次或相似度排序的方法是指对最终的候选Hashtag按其频次排序,或者按照Hashtag之间相似度或Tweets之间的相似度对Hashtag进行排序。所利用的信息可分为三种:Tweets的内容特征;用户的偏好特征;Hashtag的频次和时间特征。其中用户的偏好特征指用户的关注关系,兴趣等特征。
Mazzia和Shin等将Hashtag推荐问题转化为分类问题,利用朴素贝叶斯[9]、支持向量机[10]等方法选择合适的Hashtag。基于主题模型的方法主要依据文本的主题信息推荐Hashtag[11-12],Zhang和Ding提出主题翻译模型,取得了很好效果[13-14]。与以上方法相比,K最近邻方法较为简单,模型中考虑的信息较少,无需标注语料、训练模型等步骤,并且能够取得令人满意的效果。2009年,张庆国等利用VSM进行文本表示,依据K最近邻方法抽取关学术论文的关键词,其实验表明该方法有效的提高了准确率和召回率[15]。与该工作不同的是,本文以微博短文本作为研究对象,考察四种不同文本表示方法在基于KNN的Hashtag推荐中的实际效果,以期找到适合微博短文本的文本表示方法,从而提高基于KNN的Hashtag推荐效果。
3.2.2 潜在语义分析模型
潜在语义分析是由Dumais等提出的信息检索模型[26],使用奇异值分解(Singular Value Decomposition,SVD)将高维的向量空间模型映射到低维的语义空间中,对原本的文档向量进行了降维,去除了一些“噪音”,并且反映出词语之间隐含的语义关系。
潜在语义分析是对“词汇-文档”矩阵进行奇异值分解,因此首先构造“词汇-文档”矩阵,在这个矩阵中,对其中的词汇计算权重,区别每个词语的重要性。本文使用TF*IDF计算矩阵中每个词汇的权重。首先构建“词项-文档矩阵”C(见图2)。
矩阵中列代表文档,行代表词汇,xnm为第m篇文档的第n个词所对应的权重。然后对矩阵C进行奇异值分解分解,计算公式为:
C=UVP (4)
保留矩阵U、V、P的前K列,将其它列去除后得到Uk、Vk、Pk,再重新构建矩阵Ck:
Ck=UkVkPk (5)
这时新的Ck即为文本的向量形式,潜在语义分析通过SVD这种数学方法对原矩阵进行降维,最终结果可解释性较差[26]。
3.2.3 隐含狄利克雷分布模型
隐含狄利克雷分布LDA是由Blei提出的一种概率主题模型[27],与LSA有着密切的联系。由于LSA生成的向量无法被很好的解释,因此Huffman等针对LSA的缺点提出了概率潜在语义分析(probabilistic latent semantic analysis,PLSA)较好的解决了多义词的问题,每个维度可以被解释为词典中的概率分布[28]。PLSA中参数数量会随着文档的增加而增加,并且容易出现过拟合。2003年,Blei等为了克服PLSA的上述缺点,引入了狄利克雷先验分布,提出了LDA模型。
LDA能够将高维的向量空间映射到低维的主题空间,避免了特征稀疏问题的出现。微博这类短文本不仅词汇少,且存在缩写词汇、网络俚语以及大量未登录词,这些干扰因素都会影响文本间相似度的计算,LDA用主题分布的概率对文本进行表示,减少了上述噪音的影响。与上述两种方法相比,由于加入了狄利克雷先验分布,因此LDA的缺点是计算量大。LDA是一个三层贝叶斯概率模型,包含词项、主题和文档三层结构(见图3)。
其中φ表示主题中的词项概率分布,θ表示第m篇文档的主题概率分布,φ和θ分别作为多项式分布的参数用于生成主题和单词。K代表主题数量,W和Z分别表示第m篇文档中第n个单词及其主题。其中α和β是LDA的先验参数,α反应了文本集合中主题的相对强弱,β则代表了所有主题自身的概率分布。在LDA中,首先生成整个文档集合的主题分布,然后计算每个文档对每个主题的概率分布,将文档映射到主题空间,以此将文本用整个文档集合的主题进行表示。
3.2.4 深度学习模型
目前常用的词汇表示方法是 “One-Hot Representation”,词汇出现的位置值为“1”,其它位置为“0”。这种方法无法表示出词汇之间的语义关系[29]。Hinton提出的分布式特征表示方法(Distributed representation)克服了“One-Hot Representation”的缺点[30]。
Bengio等基于分布式表示的思想,提出了使用神经网络训练语言模型的方法,词向量就是在训练语言模型的过程中得到的[30]。词项量包含词汇的上下文信息,通过一些相似度的计算方法,能够准确的衡量不同词汇的语义关系。Mikolov等提出使用循环神经网络训练语言模型的方法[31],并深度学习的开源工具“Word2vec”[32],大大提高了词向量的训练速度。
在Word2vec中将词汇使用Huffman树存储,在训练语言模型时,输入层为词汇的上下文,输出为经过隐含层转换之后的向量。将从Huffman树的根节点出发到查找到该词汇的过程看作一个连续的二分类的过程,该词汇在该上下文环境下出现的概率即为二分类过程的乘积,当语言模型训练完成时,输出层的向量即为最终的词量。
基于上述工作,Le和Mikolov等于2014年提出了基于深度学习的句子向量和文档向量的训练方法[33],本文使用该方法作为文本的表示方法,并将其记为“Doc2vec”。由深度学习得到的文本向量与词项量具有相同的优点,含有丰富的语义信息。对于微博短文本来说,这种方法能够表示出缩写词、网络俚语和正常词语之间的语义关系,相似度的计算更加准确。
在Doc2vec中“Paragraph id”代表一个段落,与Word2vec的方法相似,通过词汇的上下文来预测这个词汇的概率,区别是doc2vec中将段落也看作一个词,这个词由段落的矩阵表示“Paragraph matrix”。段落中也包含了该词汇的上下文信息,在这个模型中由于词汇之间有着前后的关系,因此这种方称为“Distributed Memory Model”,另外一种不区分词汇顺序的方法使用了词袋模型,称为“Distributed Bag of Words”,Doc2vec训练的过程与Word2vec相似(见图4)。
4 实验与结果分析
4.1 实验数据概述
Twitter是世界著名的微博平台,使用人数众多,在Twitter中用户发表的微博文本为Tweets,本文使用从Twitter中采集的Tweets作为实验数据。在Twitter中以“H7N9”为主题采集数据,具体查询式为“h7n9 lang:en since:2014-03-08 until:2015-03-08”,从2014年3月8日到 2015年3月8日在Twitter中进行搜索,一共采集了87382条Tweets,其中Hashtag被使用的总次数为81305次,将这些数据作为训练集(具体的信息见表1)。
[2] Zappavigna M. Discourse of Twitter and social media: How we use language to create affiliation on the web [M]. A&C Black, 2012.
[3] Ivanova M. Understanding microblogging hashtags for learning enhancement [J]. Form@ re-Open Journal per la formazione in rete, 2013, 11(74): 17-23.
[4] Dixon K. Feminist Online Identity: Analyzing the Presence of Hashtag Feminism [J]. Journal of Arts and Humanities, 2014, 3(7): 34-40.
[5] Komori L. We shouldn't have to smoke and hide The legalize hashtag as a platform for collective identity and collective action framing [D].University of Alberta, 2013.
[6] Skalbeck R V. Anatomy of a Conference Twitter Hashtag:#AALL2010[J/OL].[2015-05-16].http://scholarship.law.georgetown.
edu/digitalpreservation_publications/5.
[7] Potts L, Seitzinger J, Jones D, et al. Tweeting disaster: hashtag constructions and collisions [C].Proceedings of the Proceedings of the 29th ACM international conference on Design of communication, ACM, 2011: 235-240.
[8] Li Z, Zhou D, Juan Y-F, et al. Keyword extraction for social snippets [C].Proceedings of the Proceedings of the 19th international conference on World wide web, ACM, 2010: 1143-1144.
[9] Mazzia A, Juett J. Suggesting hashtags on twitter[R].Machine Learning, Computer Science and Engineering, University of Michigan, 2009.
[10] Shin Y, Lee S-J, Park J. Composition pattern oriented tag extraction from short documents using a structural learning method [J]. Knowledge and information systems, 2014, 38(2): 447-468.
[11] She J, Chen L. Tomoha: Topic model-based hashtag recommendation on twitter [C].Proceedings of the Proceedings of the companion publication of the 23rd international conference on World wide web companion, International World Wide Web Conferences Steering Committee, 2014: 371-372.
[12] Ma Z, Sun A, Yuan Q, et al. Tagging Your Tweets: A Probabilistic Modeling of Hashtag Annotation in Twitter [C].Proceedings of the Proceedings of the 23rd ACM International Conference on Conference on Information and Knowledge Management, ACM, 2014: 999-1008.
[13] Zhang Q, Gong Y, Sun X, etal.Time-aware Personalized Hashtag Recommendation on Social Media[J/OL].[2015-05-16].
http://p.nus.edu.sg/~antho/C/C14/C14-1021.pdf.
[14] Ding Z, Qiu X, Zhang Q, et al. Learning topical translation model for microblog hashtag suggestion[C].Proceedings of the Proceedings of the Twenty-Third international joint conference on Artificial Intelligence, AAAI Press, 2013: 2078-2084.
[15] 张庆国, 章成志, 薛德军, 等. 适用于隐含主题抽取的 K 最近邻关键词自动抽取[J]. 情报学报, 2009, (2):163-168.
[16] Xiao F, Noro T, Tokuda T. News-topic oriented hashtag recommendation in Twitter based on characteristic co-occurrence word detection [M]. Web Engineering. Springer,2012: 16-30.
[17] Tariq A, Karim A, Gomez F, et al. Exploiting Topical Perceptions over Multi-Lingual Text for Hashtag Suggestion on Twitter [C].Proceedings of the FLAIRS Conference, 2013.
[18] Zangerle E, Gassler W, Specht G. On the impact of text similarity functions on hashtag recommendations in microblogging environments [J]. Social Network Analysis and Mining, 2013, 3(4): 889-898.
[19] Otsuka E, Wallace S A, Chiu D. Design and evaluation of a Twitter hashtag recommendation system [C].Proceedings of the Proceedings of the 18th International Database Engineering & Applications Symposium, ACM, 2014: 330-333.
[20] Yan X, Zhao H. Chinese microblog topic detection based on the latent semantic analysis and structural property [J]. Journal of Networks, 2013, 8(4): 917-923.
[21] Liang D, Yong-ping D. Application of LDA Model in Microblog User Recommendation [J]. Computer Engineering, 2014, 5(002).
[22] Tomar A, Godin F, Vandersmissen B, et al. Towards Twitter hashtag recommendation using distributed word representations and a deep feed forward neural network [C].Proceedings of the Advances in Computing, Communications and Informatics (ICACCI, 2014 International Conference on, IEEE, 2014: 362-368.
[23] Lucas Vergeest. Using N-grams and Word Embeddings for Twitter Hashtag Suggestion[D]. Holland Tilburg:Tilburg University, 2014.
[24] Cover T, Hart P. Nearest neighbor pattern classification [J]. Information Theory, IEEE Transactions on, 1967, 13(1): 21-27.
[25] Salton G, Wong A, Yang C-S. A vector space model for automatic indexing [J]. Communications of the ACM, 1975, 18(11): 613-620.
[26] Dumais S, Platt J, Heckerman D, et al. Inductive learning algorithms and representations for text categorization [C].Proceedings of the Proceedings of the seventh international conference on Information and knowledge management, ACM, 1998: 148-155.
[27] Blei D M, Ng A Y, Jordan M I. Latent dirichlet allocation[J].The Journal of machine Learning research,2003(3):993-1022.
[28] Hofmann T. Probabilistic latent semantic indexing [C].Proceedings of the Proceedings of the 22nd annual international ACM SIGIR conference on Research and development in information retrieval, ACM, 1999: 50-57.
[29] Turian J, Ratinov L, Bengio Y. Word representations: a simple and general method for semi-supervised learning [C].Proceedings of the Proceedings of the 48th annual meeting of the association for computational linguistics, Association for Computational Linguistics, 2010: 384-394.
[30] Hinton, McClelland. Distributed representations[A].D.E. Rumelhart & J.L. McCleland(Eds.), Parallel distributed processing: Explorations in the microstructure of cognition{M}. Cambridge, MA: MIT Press, 1986:77-109.
[28] Bengio Y, Ducharme R, Vincent P, et al. A neural probabilistic language model [J]. The Journal of Machine Learning Research, 2003(3):1137-1155.
[31] Mikolov T, Karafiát M, Burget L, et al. Recurrent neural network based language model [C].Proceedings of the INTERSPEECH 2010, 11th Annual Conference of the International Speech Communication Association, Makuhari, Chiba, Japan, September 26-30, 2010, 2010: 1045-1048.
[32] Mikolov T, Chen K, Corrado G, et al. Efficient estimation of word representations in vector space[J]. arXiv preprint arXiv:1301.3781, 2013.
[33] Le Q V, Mikolov T. Distributed representations of sentences and documents[J]. arXiv preprint arXiv:1405.4053, 2014.
[34] Kywe S M, Hoang T-A, Lim E-P, et al. On recommending hashtags in twitter networks [M]. Social Informatics. Springer. 2012: 337-350.
[35] ehek R, Sojka P. Software framework for topic modelling with large corpora[C]. Proceedings of the LREC 2010 Workshop on new Challenges for NLP Frameworks, Valletta, Malta: ELRA, 2010: 45-50.
关键词:彝文;自动分词;分词算法;难点分析;发展方向
中图分类号:TP391.1文献标识码:A文章编号:1009-3044(2012) 04-0944-03
Status of the Research and Difficulties in Word Segmentation Technology
WANG Cheng-ping
(Nationalities Languages Information Processing Experiment Center, Southwest University for Nationalities, Chengdu 610041, China)
Abstract: Yi word automatic segmentation is a basic Yi language information processin research. The article first analyzes the characteristics of Yi language. Second, the concept of word of Yi and application, and a variety of Yi segmentation algorithm has done a systematic introduction. Then combined with the characteristics of Yi Yi automatic segmentation to achieve the difficulties faced where the word Yi pointed out the future direction of technology.
Key words: Yi language; automatic segmentation; segmentation algorithm; difficulties analysis; development direction
彝文属于是大字符集,因此,彝文信息处理就增加了大字符集处理和字串到词串处理这两大块任务。彝文信息处理应用系统只要涉及到检索、机器翻译、文摘、校对等就需要以词为基本单位。彝文信息处理应用系统只要涉及到检索、机器翻译、文摘、校对等就需要以词为基本单位。然而由于彝文本身的复杂性,使得彝文分词成为了语言分词技术中的一个难点。
1彝文的特点
字形上,彝文大部分是独体字,是不可再分的文字;音节上,彝文是单音节的文字,一个字代表一个音节,也即是一个具有独立意义的词;语法上,彝语是以词序和虚词为表达语法意义的主要手段。
彝文同汉文一样,每个字的大小基本相同,汉文被称为“方块字”,彝文被称为“石块字”。而且,字与字之间有明显的分界,字与词或词与词之间也没有明显的界限,不按词分写。此外彝语中的词没有固定或明显的词头、词尾和性、数、格变化等分词标志。彝文和汉文的这些相同的特点,决定了在彝文信息处理领域彝文同样面临着分词技术问题。
2彝文分词概念与研究方法
2.1彝文分词概念
彝文分词属于自然语言理解技术的范畴,是语义理解的首要环节,是按照特定的规范,将彝文语句中具有确定的语义或语法功能的词和词组按分词单位进行划分一种技术,它是彝文文本分类、自动标注、信息检索、机器翻译、语音识别与合成等领域的基础。从信息处理过程来看,可以把彝文自动分词看作是用计算机自动识别彝文文本中的词,并在词与词之间加入明显切分标记的过程。而从应用需求来看,彝文自动分词的主要目的是确定自然语言处理的基本分析单位,为进一步开展彝文的自动分析进而为实现机器翻译、篇章理解、自动文摘、文本校对、自动标引等应用处理系统做好前期准备工作。
2.2彝文信息处理自动分词技术研究方法
目前彝文自动分词研究采用的方法归纳起来主要有以下三种类型:
2.2.1机械分词法
主要有最大匹配法、逆向最大匹配法、逐词匹配法、部件词典法、词频统计法、设立标志法、并行分词法、词库划分和联想匹配法等,如:西南民族大学民族语言文字信息处理实验中心就采用了正向最大匹配法来设计与开发了“基于既定词表的彝文自动分词系统”,分词正确率达到了85%以上。
2.2.2语义分词法
引入了语义分析,对自然语言自身的语言信息进行更多的处理,如扩充转移网络法、知识分词语义分析法、邻接约束法、综合匹配法、后缀分词法、特征词库法、约束矩阵法、语法分析法等,如:西南民族大学民族语言文字信息处理实验中心就采用了彝语语法分析法与综合匹配法来设计与开发了“基于语料特征的彝文自动分词系统”,分词正确率达到了95%以上,也是目前彝文自动分词技术研究的一个代表。
2.2.3人工智能法
是对信息进行智能化处理的一种模式,又称理解分词法,主要有两种处理方式:一种是基于心理学的符号处理方法。模拟人脑的功能,像专家系统。即希望模拟人脑的功能,构造推理网络,经过符号转换,从而可以进行解释性处理。一种是基于生理学的模拟方法。神经网络旨在模拟人脑的神经系统机构的运作机制来实现一定的功能。目前西南民族大学民族语言文字信息处理实验中心正在研发的“信息处理用彝文智能分词系统”就采用了此方法。
这三种方法又可分为两大类:一类是基于规则的,目前大多数彝文自动分词方法都采用此方法,如:基于既定词表的彝文自动分词系统;一类是基于语料库的,如:基于语料特征的彝文自动分词系统。基于规则的分词算法的计算模型均是概率论中的马尔可夫过程又称元语法、隐马尔可夫过程和通信中的信道噪声模型。但无论是马尔可夫过程还是信道噪声模型,最后都归结为计算彝文词频的统计信息,串频和互信息是词频的另一种表现形式。
4结束语
由于在彝语中词与词之间没有明显的切分标志,因此在彝文信息处理中彝文分词这一研究领域应运而生,并成为彝文信息处理中的基础课题之一。彝文自动分词技术在彝文信息检索、文字识别、机器翻译,语音识别与合成等领域中将有着广泛的应用前景。本文主要是对现有彝文的各类分词算法做出了系统的介绍,同时结合彝文的特,从语言学和计算机技术两个不同学科角度分析了实现彝文自动分词的难点所在,为以后信息处理彝文自动分词技术研究工作奠定了一个良好的基础。
参考文献:
[1]冯志伟.计算机中文信息处理[M].北京:北京出版社,2001:20-145.
[2]沙马拉毅.计算机彝文信息处理[M].北京:电子工业出版社,2000:21-67.
[3]陈小荷.现代汉语自动分析[M].北京:北京语言文化大学出版社,2000:35-80.
[4]邓宏涛.中文自动分词系统的设计模型[J].计算机与数字工程,2005(4):138-140.
[5]孙铁利,刘延吉.中文分词技术的研究现状与困难[J].信息技术,2009(7):187-189.