公务员期刊网 精选范文 神经网络文本分类范文

神经网络文本分类精选(九篇)

前言:一篇好文章的诞生,需要你不断地搜集资料、整理思路,本站小编为你收集了丰富的神经网络文本分类主题范文,仅供参考,欢迎阅读并收藏。

神经网络文本分类

第1篇:神经网络文本分类范文

关键词:卷积神经网络;语言模型;分析

1 卷积神经网络语言模型

CNN语言模型基本结构包括输入层、卷积层、池化层及后续的分类层。输入层是表示语言的矩阵,该矩阵可以是通过Google word2vec或GloVe预训练得到的词嵌入表示,也可以是从原始数据重新训练的语言的向量表示。输入层之后是通过线性滤波器对输入矩阵进行卷积操作的卷积层。在NLP问题中,输入矩阵总是带有固定顺序的结构,因为矩阵的每一行都表示离散的符号,例如单词或者词组等。因此,使用等宽的滤波器是非常合理的设置。在这种设置下,仅需要考虑滤波器的高度既可以实现不同尺寸的滤波器做卷积操作。由此可知,在处理NLP问题时,卷积神经网络的滤波器尺寸一般都是指滤波器的高度。

然后,将卷积层输出的特征映射输入池化层,通过池化函数为特征映射进行降维并且减少了待估计参数规模。一般的,CNN池化操作采用1-max池化函数。该函数能够将输入的特征映射统一生成维度相同的新映射。通过池化操作,可以将卷积层生成的特征连接成更抽象的高级特征,所得到的高级特征尺寸与输入的句子不再存在直接关系。

最后,将得到的高级特征输入softmax分类层进行分类操作。在softmax层,可以选择应用dropout策略作为正则化手段,该方法是随机地将向量中的一些值设置为0。另外还可以选择增加l2范数约束,l2范数约束是指当它超过该值时,将向量的l2范数缩放到指定阈值。在训练期间,要最小化的目标是分类的交叉熵损失,要估计的参数包括滤波器的权重向量,激活函数中的偏置项以及softmax函数的权重向量。

2 卷积神经网络语言模型应用分析

CNN语言模型已经广泛应用于诸如文本分类,关系挖掘以及个性化推荐等NLP任务,下面将对这些应用进行具体的介绍与分析。

2.1 CNN在文本分类中的应用分析

kim提出了利用CNN进行句子分类的方法。该方法涉及了较小规模的参数,并采用静态通道的CNN实现了效果很优异的句子分类方法。通过对输入向量的调整,进一步提高了性能实现了包括情感极性分析以及话题分类的任务。在其基础上为输入的词嵌入设计了两种通道,一种是静态通道,另一种是动态通道。在卷积层每一个滤波器都通过静态与动态两种通道进行计算,然后将计算结果进行拼接。在池化层采用dropout正则化策略,并对权值向量进行l2约束。最后将该算法应用于MR、SST-1与SST-2、Subj、TREC、CR以及MPQA等数据集。MR数据集为电影评论数据集,内容为一句话的电影评论,其分类包括积极情感极性与消极情感极性两类。SST-1与SST-2数据集为斯坦福情感树库是MR数据集的扩展,但该数据集已经划分好了训练集、验证集及测试集并给出了细粒度的标记,标记包括非常积极、积极、中性、消极、非常消极等情感极性。Subj数据集为主观性数据集,其分类任务是将句子分为主观句与客观句两类。TREC数据集为问题数据集,其分类任务是将所有问题分为六类,例如关于数字、人物或位置等信息的问题。CR数据集为评论数据集,包括客户对MP3、照相机等数码产品的评论,其分类任务是将其分为积极评价与消极评价两类。MPQA数据集是意见极性检测任务数据集。通过实验证明,该方法在这几个典型数据集上都能取得非常优异的效果。

2.2 CNN在关系挖掘中的应用分析

Shen等人提出了一种新的潜在语义模型,以词序列作为输入,利用卷积-池化结构为搜索查询和Web文档学习低维语义向量表示。为了在网络查询或网络文本中捕捉上下文结构,通过输入单词序列上下文时间窗口中的每个单词来获取词汇级的n-gram语法特征,将这些特征聚合成句子级特征向量。最后,应用非线性变换来提取高级语义信息以生成用于全文字符串的连续向量表示。该模型的不同之处在于,输入层与卷积层之间加入了word-n-gram层与letter-trigram层,它们能够将输入的词序列转变为letter-trigram表示向量。在卷积层通过上下文特征窗口发现相邻单词的位置特征,并变现为n-gram形式。然后通过max池化将word-n-gram特征合并为句子级的高级特征。在池化层之后增加了语义层来提取更高级的语义表示向量。

2.3 CNN在个性化推荐中的应用分析

Weston等人提出了一种能够利用标签(hashtag)有监督的学习网络帖子短文本特征表示的卷e嵌入模型(Convolutional Embedding Model)。该方法利用提出的CNN模型在55亿词的大数据文本上通过预标注的100,000标签进行训练。该方法除了标签预测任务本身能取得好的效果外,学习到的特征对于其它的文本表示任务也能起到非常有效的作用。该模型与其它的词嵌入模型类似,输入层为表示文本的矩阵,但是,在用查找表表示输入文本的同时将标签也使用查找表来表示。对于给定的文档利用10万条最频繁出现的标签通过评分函数对任何给定的主题标签进行排序。

其中,econv(w)表示CNN的输入文档,elt(t)是候选标签t的词嵌入表示。因此,通过对分数f(w,t)进行排序可以获取所有候选主题标签中排序第一的话题进行推荐。实验数据集采用了两个大规模语料集,均来自流行的社交网络文本并带有标签。第一个数据集称作people数据集,包括搜集自社交网络的2亿1000万条文本,共含有55亿单词。第二个数据集被称作pages,包括3530万条社交网络文本,共含有16亿单词,内容包括企业、名人、品牌或产品。

3 结束语

卷积神经网络应用于语言模型已经取得了非常大的发展,对于自然语言处理中的各项任务均取得了优异的结果。本文通过对几项典型工作的分析,探讨了不同卷积神经网络模型结构在不同任务中的表现。通过综合分析可以得出以下结论。首先,CNN的输入采用原始数据训练的向量表示一般效果会优于预训练的词嵌入表示;其次,在卷积层滤波器的尺寸一般采用宽度与输入矩阵宽度相等的设置;最后,为了优化结果可以采用dropout正则化处理。

第2篇:神经网络文本分类范文

关键词:主题模型;特征表达;多示例多标记学习;场景分类;文本分类

中图分类号: TP181

文献标志码:A

Multiinstance multilabel learning method based on topic model

YAN Kaobi1, LI Zhixin1,2*, ZHANG Canlong1,2

1.Guangxi Key Laboratory of MultiSource Information Mining and Security, Guangxi Normal University, Guilin Guangxi 541004, China

2.Guangxi Experiment Center of Information Science, Guilin Guangxi 541004, China

Abstract: Concerning that most of the current methods for MultiInstance MultiLabel (MIML) problem do not consider how to represent features of objects in an even better way, a new MIML approach combined with Probabilistic Latent Semantic Analysis (PLSA) model and Neural Network (NN) was proposed based on topic model. The proposed algorithm learned the latent topic allocation of all the training examples by using the PLSA model. The above process was equivalent to the feature learning for getting a better feature expression. Then it utilized the latent topic allocation of each training example to train the neural network. When a test example was given, the proposed algorithm learned its latent topic distribution, then regarded the learned latent topic allocation of the test example as an input of the trained neural network to get the multiple labels of the test example. The experimental results on comparison with two classical algorithms based on decomposition strategy show that the proposed method has superior performance on two realworld MIML tasks.

英文关键词Key words:

topic model; feature expression; multiinstance multilabel learning; scene classification; text categorization

0引言

传统的监督学习问题通常定义为单示例单标记学习问题,一个对象用一个示例来表示,同时关联一个标记。定义X为示例空间,Y为标记集合。单示例单标记学习的目的是从一个给定的数据集{(xi,yi)|1≤i≤N}中学习一个函数f:xy,其中:xi∈X是一个示例,yi∈Y是示例xi的一个标记。在机器学习技术[1]日益成熟的条件下,传统的单示例单标记学习方法已经取得了很大的成功。

然而,在现实世界中,一个对象通常是多义性的复杂对象,如果仍用传统的单示例单标记学习方法,不但不能很好地表达出对象丰富的内容信息,而且不能得到对象准确的语义标记集合,因此对于这种多义性对象,可以采用多标记学习方法来处理。在多标记学习[2]方法下,一个对象用一个示例来表示,但是关联多个标记。多标记学习的目的是从一个给定的数据集{(xi,yi)|1≤i≤N}中学习一个函数f:x2y,其中:xi∈X是一个示例,yiY是示例xi的一个标记集合{(yi1,yi2,…,yili)},li是标记集合yi中标记的个数。虽然多标记学习已经取得了很大的成就,但是只用一个示例来表示多义性对象不能有效地表达出多义性对象的复杂内容。

事实上,在多标记学习中,一个标记对应着对象不同的区域,如果能够对一个确定的区域(不是一个整体的对象)和一个特定的标记直接建立对应的模型,将会有效地减少噪声对分类准确性的影响,因此可以采用多示例学习的方法来表示多义性对象的复杂内容。多示例学习[3]的任务是从一个给定的数据集{(xi,yi)|1≤i≤N}中学习一个函数f:2xy,其中:xiX是一个包的示例集合{(xi1,xi2,…,xini)},ni是包xi中示例的个数,yi∈Y是包xi上的一个标记。然而,多示例学习主要用于单标记问题,对于多标记问题需要分解为多个单标记问题进行处理。

为了克服多标记学习和多示例学习方法的缺点,将二者结合起来形成一种多示例多标记学习方法[4],来处理带有复杂内容的多义性对象将会更加合理和有效。多示例多标记学习的目的是从一个给定的数据集{(xi,yi)|1≤i≤N}中学习一个函数f:2x2y,其中,xiX是一个包的示例集合{(xi1,xi2,…,xini)},ni是示例集合xi中示例的个数,yiY是包xi的一个标记集合{(yi1,yi2,…,yili)},li是标记集合Yi中标记的个数。

近年来,多示例多标记学习已经取得了很大的进展,同时也面临着三个主要的难题。首先,由于图像分割技术[5]的限制,很难划分出具有完整语义标记的示例;其次,在划分示例后,传统的做法是提取示例的底层特征,然后建立特征向量和语义标记之间的映射模型,由于特征提取[5]和机器学习技术[1]的限制,如何自动提取示例的高层特征及建立映射模型也是一个难点;最后,由于标记之间复杂的相关性[6],如何建立能够捕获标记之间相关性的模型[7]也是一个难点,同时文献[8]指出了大数据问题也是多示例多标记学习面临的一个新问题。如果能够克服这些主要难题,可以建立一个完美的多示例多标记模型,该模型可以直接学习示例和标记之间的映射关系,同时可以捕获到标记之间的相关性。

1相关研究

1.1多示例学习

多示例学习中,一个样本被看成是一个包含多个示例的包,当需要对一个包进行标记的时候,如果包中至少有一个示例具有对应的标记含义,则将这个包标记为正包,否则标记为负包。虽然多示例学习框架被限制在单标记问题上,但是多示例学习方法已经取得了很多研究成果,针对不同的问题提出了不同的多示例学习方法,此外多示例学习还可以用于图像检索。

1.2多标记学习

对于多义性对象,可以采用多标记学习的方法来处理。文献[6]对多标记学习作了一个全面的综述报告;文献[9]提出了一种基于神经网络的多标记学习方法。从现有的多标记算法可以看出,可以采用两个策略来处理多标记学习问题:一是将多标记问题分解为多个单标记问题。但是在很多情况下标记之间是有相关性的,例如天空和海洋可能会同时出现在同一个场景中,如果仍然用这个策略来处理多标记学习问题,将会丢失这种对提升多分类性能很有帮助的信息。二是直接对示例和标记集合之间建立模型。在一些复杂的模型中,不但可以直接建立示例和标记集合的对应关系,同时也可以得到标记之间的一些相关性。

1.3多示例多标记学习

对于多示例多标记学习,文献[4]中对多示例多标记学习作了一个全面的介绍,并且提出了MIMLBOOST和MIMLSVM算法。MIMLBOOST算法首先将多示例多标记问题转化为多示例问题,然后再采用MIBOOST[10]来处理多示例问题;MIMLSVM算法首先将多示例多标记学习问题转化为多标记问题,然后采用MLSVM[11]算法来处理多标记问题。传统的监督学习方法、多示例学习方法和多标记学习方法都可以通过分解策略从多示例多标记学习中得到,但是采用这种分解策略会丢失很多蕴藏在训练样本中的信息,同时也不能考虑到标记之间存在关联性的问题。后来,文献[12]提出了一种直接学习示例和标记之间映射关系的MIMLRBF算法;文献[7]提出了一种联合多示例和多标记的新颖算法,该算法不但可以直接对示例集合和标记集合之间进行建模,同时还可以捕获到标记之间的关联性;文献[8]则提出了一种针对大数据问题的快速多示例多标记算法。然而,上述文献中提到的方法都没有考虑如何来更好地表示对象的特征这一因素。针对这一问题,本文考虑将特征学习模型融入多示例多标记学习中,以学习到一个更好的特征表达方式,从根源上提升分类算法的准确性。概率潜在语义分析模型可以学习到样本中潜在的主题这一高层特征,本文结合这一特性提出一种新的多示例多标记学习方法PLSANNMIML,以解决多示多标记学习中如何更好地表示对象特征这一问题。

2PLSANNMIML方法

2.1概率潜在语义分析

Hofmann[13]首次提出用概率潜在语义模型对文本进行建模的方法。当用概率潜在语义分析模型处理图像数据时,可以把图像看成是文档,用概率潜在语义分析模型对图像进行建模来发现图像潜在的主题分布。

假设D={d1,d2,…,di}代表一个图像数据集,W={w1,w2,…,wj}代表一个视觉词汇表,这种用概率潜在语义分析模型对图像进行建模的模型是一个发现共现矩阵隐变量的模型,而该共现矩阵的值由nij=(wj,di)组成,其中nij=(wj,di)是一个视觉词wj出现在图像di中的数量。设Z={z1,z2,…,zk}代表没有观测到的潜在主题变量, P(di)代表观测到一张具体图像的概率, P(zk|di)代表一张特定图像在潜在主题空间下的概率分布, P(wj|zk)代表一个视觉词出现在一个确定主题变量下的条件概率。这种生成模型可以用如下步骤表示:

1)以一定的概率P(di)选择一张图像di;

2)以一定的概率P(zk|di)选择一个主题zk;

3)以一定的概率P(wj|zk)生成一个词wj。

经过上面的过程,当得到一个观测点(wj,di)时,潜在的主题变量zk被忽略,产生下面的联合概率模型:

L=logP(wj,di)=∑d∈D∑w∈Wn(wj,di)logP(wj,di)

(1)

在遵循似然原则的条件下,采用期望最大化算法[12]最大化似然函数的对数,从而得到P(wj|zk)和P(zk|di),似然函数的对数表现形式如式(2)所示:

L=logP(wj,di)=∑d∈D∑w∈Wn(wj,di)logP(wj,di)

(2)

2.2神经网络

神经网络[14]由于其在信息处理中具有非线性的自适应能力,已经在人工智能领域中取得了广泛的应用。算法通过具有三层结构的前向神经网络模型[15]来得到样本的标记集合,每层由不同的神经元组成,第一层叫输入层,中间层叫隐藏层,最后一层叫输出层。在每一层中的每个神经元都连接着下一层的所有神经元,但在同一层中的神经之间是没有连接的,当信息从一层传到下一层时,前层中的每个神经元都会有一个激活函数对信息进行变换,该函数选择的是S型的激活函数,其定义是:f(x)=1-ex1+ex。在训练神经网络时,采用的是反向传播学习算法[15]来学习神经网络中神经元的权值。

2.3PLSANNMIML方法

算法主要包括训练和测试两个阶段,流程如图1所示。

2.3.1训练阶段

训练过程包括两个步骤:首先通过概率潜在语义分析模型从所有的训练样本中学习到每个样本的特定主题分布P(zk|di)和每个主题的特定词分布P(wj|zk),每个样本就可以用P(zk|di)来表示;其次再用每个样本的特定主题分布来训练神经网络,具体细节如下所示:

式(3)描述的是神经网络在样本xi上的误差函数。训练过程中算法采用概率潜在语义分析模型将xi转化为主题向量zk。假定标记空间Y有Q个标记,神经网络具有与主题向量zk维数相同的输入和Q个输出,其中Q个输出对应着Q个标记,向量w是在神经网络中需要学习的权值向量。

Ei(w)=∑Qq(ciq-diq)2

(3)

其中:ciq是训练时样本xi在第q个类上的实际输出;而diq是样本xi在第q个类上的目标输出,如果q∈yi则diq的值为1,否则其值为-1。通过结合误差反向传播策略[14],采用随机梯度下降法来最小化式(3)中的误差函数,其过程如下:

假定xji是单元j的第i个输入, wji是关联输入xji的权值大小,netj=∑iwjixji是单元j的网络输出,oj=f(netj)是单元j的实际输出,tj是单元j的目标输出,根据随机梯度下降算法可以得到每个权值的更新公式如下:

wji=wji-ηEiwji

(4)

其中η是学习速率的大小。计算式Eiwji的值时,分两种情况讨论:

当j是输出层的单元时,推导出式(5):

Eiwji=-(tj-oj)oj(1-oj)

(5)

当j是隐藏层的单元时,推导出式(6):

Eiwji=-oj(1-oj)xji∑k∈S[(tj-oj)oj(1-oj)]wkj

(6)

其中S是单元j的输出所能连接到的单元的集合。

2.3.2测试阶段

给定一个测试样本pX,算法首先利用在训练阶段得到的每个主题的特定词分布P(wj|zk)来学习到测试样本的特定主题分布P(zk|dt),然后将学习到的主题分布输入到已经训练好的神经网络,神经网络将会有Q个输出,采用文献[9]介绍的方法选择阈值,通过选择合适的阈值,得到标记的相关集合。

3实验结果与分析

3.1实验步骤

根据选择的模型,算法涉及到三个需要确定的参数变量,分别是词的数量、主题的数量和神经网络中隐层神经元的数量,分别用Words、Topics、Neurons来表示。由于这三个参数对算法的性能有很重要的作用,因此首先需要确定这三个参数的最优值。在确定参数的最优值时,采用汉明损失(Hamming loss)和1错误率(oneerror)这两个评价指标来评估参数对算法性能的影响。确定算法的最优参数后,算法对现实世界中的两种多示例多标记学习任务进行实验,并与现有的多示例多标记算法MIMLBOOST和MIMLSVM进行比较。

实验涉及到两个数据集,每个数据集都有2000个样本。实验时先把每个数据集划分为三部分:1000个样本的训练集合、500个样本的验证集和500个样本的测试集。

其中500个样本的验证集用于确定算法的最优参数。当确定算法的最优参数后,再将1000个样本的训练集和500个样本的验证集合并形成一个1500个样本的训练集,最终每个数据集对应着一个1500个样本的训练集和一个500个样本的测试集。表1是对实验中所用数据集的具体描述。

【答:文本数据集每个包划分出的示例都不相同,一个平均值表示的是一次实验时每个包的示例的平均数,表格中平均数有个范围是对数据集进行不同的划分,进行多次实验时的一个平均值范围,所以是3.56±2.71,也与后面表中的实验数据一致。上面场景数据集,每幅图片都划分成9个示例,所以平均数不变,也可以写成9.00±0.00;

3.1.1场景数据集

实验使用的场景数据集包含2000幅自然场景图像,整个数据集包含的类标记有沙漠、山、海洋、日落、树。数据集中每幅图像的标记都是人工标记的,数据集中超过22%的图像具有多个标记,平均每幅图像的标记数量是1.24±0.44。对图像划分示例后,通过提取每个示例的颜色和纹理特征将其中的每个示例表示为一个18维的向量,并用这个特征向量代表这个示例。

3.1.2文本数据集

实验使用的文本数据集又名为Reuters21578数据集。实验时先对这个数据集进行预处理,形成一个具有2000个文档的数据集。整个文档数据集包含7个类标记,大约15%的文档具有多个标记,平均每个文档的标记数量是1.15±044。当进行示例划分时,采用滑动窗口的技术[16]来形成文档的示例,每个示例对应着一个被大小为50的滑动窗口所覆盖的文本段,最后采用基于词频[17]的词袋模型表示方法来表示生成的示例。

3.2实验结果

图2是采用部分场景数据集作为实验数据,观测不同参数值配置对算法性能的影响。图2(a)~(f)中参数变量的取值范围为[3,21],并且参数变量取整数值;

算法中,学习速率η的值设置为0.1。通过改变参数的配置,采用汉明损失和1错误率来评估参数对算法性能影响,进行了多组实验来确定算法的最优参数值。

实验开始时,如图2(a)和(b)中显示,先确定Neurons和Topics这两个参数的值,其值设置为Neurons=3,Topics=3,Words的变化范围为[3,21]。从图2(a)和(b)中可以看到,当Words取值为7时,汉明损失和1错误率指标取得最小值,算法的分类性能最好。

在图2(c)和(d)中,参数Neurons的值与图2(a)和(b)中的值相同,但是Words的值设置为7,Topics的变化范围为[3,21]。从图2(c)和(d)中可以看出,当Topics取值为9时,汉明损失和1错误率指标取得最小值,算法的分类性能最好。

在图2(e)和(f)中,根据前面的实验结果,参数Words的值设置为7,Topics的值设置为9,Neurons变化范围为[3,21]。从图2(e)和(f)中可以看出,当Neurons取值为9时,汉明损失和1错误率指标取得最小值,算法的分类性能最好。确定算法的最优参数值后,算法对现实世界中的两种多示例多标记学习任务进行实验,并和MIMLBOOST和MIMLSVM进行比较,采用文献[12]中提到的五种多标记学习评价指标来评估算法的性能。表2和表3分别是各个算法在场景数据集和文本数据集上进行实验的结果,同时表4还给出了各个算法在这两个数据集进行实验时所需要的时间。在表2和表3中,表示数值越小算法性能越好,而表示数值越大算法性能越好。

从表2、3中的数据可以看出,对于表中的所有评价指标,PLSANNMIML算法在场景数据集和文本数据集上具有更好的性能。

从表4中可以看出,PLSANNMIML方法在时间上也具有更好的性能,在训练和测试阶段,算法需要的时间都比MIMLSVM算法稍微少些,而且远远要少于MIMLBOOST算法所需要的时间。从所有的实验结果可以看出,PLSANNMIML方法在现实世界中的两种多示例多标记学习任务中具有更优越的性能。

4结语

现有的大部分多示例多标记学习算法都没有考虑怎么样更好地表示对象的特征这一因素,因此提出了一种结合概率潜在语义分析和神经网络的多示例多标记学习方法。概率潜在语义分析模型可以学习到样本中的潜在语义这一高层特征,而神经网络在多标记问题中具有良好的分类性能。对现实世界中的两种多示例多标记学习任务进行实验表明,PLSANNMIML算法对其他的多示例多标记学习算法而言具有很强的竞争力,解决了在多示例多标记学习算法中怎么更好地表示对象的特征这一问题;同时也存在着不足之处,算法依然采用的是分解策略来处理多示例多标记学习问题,同时还忽略了标记之间的相关性。下一步将在融入特性学习模型的基础上寻找其他策略来处理多示例多标记问题,同时也要考虑标记之间的相关性。

参考文献:

[1]

BISHOP C M. Pattern recognition and machine learning: information science and statistics [M]. New York: Springer, 2006: 67-459.

[2]

ZHOU Z, ZHANG M,ZHANG S, et al. Multiinstance multilabel learning [J]. Artificial Intelligence, 2012, 176(1): 2291-2320.

[3]

ZHOU Z. Multiinstance learning: a survey [R/OL]. Nanjing: Nanjing University, National Laboratory for Novel Software Technology, 2004 [20150206]. http:///zhouzh/zhouzh.files/publication/techrep04.pdf.Nanjing, China, Mar. 2004.

[4]

ZHOU Z, ZHANG M, HUANG S, et al. Multiinstance multilabel learning [J]. Artificial Intelligence, 2012, 176(1): 2291-2320.

[5]

PRATT W K. Digital image processing [M]. DENG L, ZHANG Y, translated. Beijing: China Machine Press, 2005:345-398. (PRATT W K. 数字图像处理[M].邓鲁华,张延恒,译. 北京:机械工业出版社,2005:345-398.)

[6]

LI Z, ZHUO Y, ZHANG C, et al. Survey on multilabel learning [J]. Application Research of Computers, 2014, 31(6): 1601-1605. (李志欣,卓亚琦,张灿龙,等.多标记学习研究综述[J].计算机应用研究,2014,31(6):1601-1605.)

[7]

ZHA Z, HUA X, MEI T, et al. Joint multilabel multiinstance learning for image classification [C]// CVPR 2008: Proceedings of the 2008 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2008: 1-8.

[8]

HUANG S, ZHOU Z. Fast multiinstance multilabel learning [C]// AAAI 2014: Proceedings of the 28th AAAI Conference on Artificial Intelligence. Menlo Park: AAAI Press, 2014: 1868-1874.

[9]

ZHANG M, ZHOU Z. Multilabel neural networks with applications to functional genomics and text categorization [J]. IEEE Transactions on Knowledge and Data Engineering, 2006, 18(10): 1338-1351.

[10]

XU X, FRANK E. Logistic regression and boosting for labeled bags of instances [C]// PAKDD 2004: Proceedings of the 8th PacificAsia Conference on Knowledge Discovery and Data Mining, LNCS 3056. Berlin: Springer, 2004: 272-281.

[11]

BOUTELL M R, LUO J, SHEN X, et al. Learning multilabel scene classification [J]. Pattern Recognition, 2004, 37(9): 1757-1771.

[12]

ZHANG M, WANG Z. MIMLRBF: RBF neural networks for multiinstance multilabel learning [J]. Neurocomputing, 2009, 72(16/17/18):3951-3956.

[13]

HOFMANN T. Unsupervised learning by probabilistic latent semanticanalysis [J]. Machine Learning, 2001, 42(1/2): 177-196.

[14]

SCHMIDHUBER J. Deep learning in neural networks: an overview [J]. Neural Networks, 2015, 61: 85-117.

[15]

HAYKIN S. Neural networks [M]. YE S, SHI Z, translated. 2nd ed. Beijing: China Machine Press, 2004: 109-176. (HAYKIN S. 神经网络原理[M].叶世伟,史忠植,译.2版.北京:机械工业出版社,2004:109-176.)

[16]

SEBASTIANI F. Machine learning in automated text categorization [J]. ACM Computing Surveys, 2001, 34(1): 1-47.

第3篇:神经网络文本分类范文

整浇楼盖主梁的不动铰支分析

锚杆静压桩在地基加固中的应用

多层砌体结构内廊圈梁设计

浅谈地震区框架柱轴压比限值

洛阳某主干道石灰土稳定层裂缝分析与对策

浅谈市政施工用电的保护系统

辊压机粉磨技术在水泥厂的应用

居住区水暖管网管理系统的一种实现方法

DSS的系统分析和设计方法初探

模糊控制分区方法研究

核子秤的一种特殊使用方法

HDL技术简介与应用

无穷小的阶在计算中的应用

傅立叶级数展开CAI课件的设计与实现

高校选修课成绩管理系统的研制

海螺模式的启示

谈直观教学在《机械设计基础》课中的运用

城市特色文化研究

浅谈多媒体CAI课件制作工具

自蔓延高温合成机理研究方法的分析

商品混凝土浇筑杯口基础方案的探讨

粗糙集和神经网络在文本分类中的应用研究

数据通信模拟实验系统的设计与实现

逆向工程技术在模型制作中的应用

双转子轴系五主轴轴承试验机主体结构设计与计算

关于水泥机立窑除尘技术的探讨

基于P2P构架的大型异构网络管理模型研究

冲击电流计特性研究实验中对偏转线圈运动状态的数学分析

一种新的拉曼散射——表面增强拉曼散射

基于WinCe的PLC通讯系统的设计

洛阳市技术创新能力问题分析及战略研究

企业内部审计的现状和对策

高分子材料应用技术专业教改的思路与实践

我校电子商务专业教学研究初探

对“测试技术基础”教学的探讨

新建本科院校体育教学模式初探

浅析网络会计软件的隐患

元认知型学习策略在外语写作教学中的应用

论大学英语分级教学模式对学生自主学习习惯的影响

连续梁抗剪性能与裂缝分析

中天山特长隧道施工GPS控制网的建立及横向贯通误差预计分析

微分求积法求解功能梯度材料梁的弯曲问题

一种装置点火单元可靠性评估方法研究

基于S7-200的AS-i网络设计与数据传输

基于GA-BP算法的水电机组故障诊断模型

基于MSP430单片机的小功率锂电池组保护器设计

GIS管理系统中图形对象实体点选的处理方法

一种简单有效的碰撞检测算法的实现

基于CLucene的WORD文档全文检索系统研究与开发

第4篇:神经网络文本分类范文

关键词: 云计算;数据挖掘;分布式

中图分类号:TP393.08 文献标识码:A 文章编号:1671-7597(2012)0220104-01

0 引言

信息技术的出现导致各种格式(如记录、文档、图像、声音、航空数据等)的海量数据存储在数据仓库中,如何从海量的数据中找到有价值的信息是当前的一个热点,对人类社会具有非常重要的社会价值和经济利益,数据挖掘就是实现这一功能的技术。数据挖掘从早期的单独算法对单系统、单机器进行对向量数据的挖掘,到与数据库相结合,支持多个算法的挖掘,以及和预测模型相集成,支持Web数据、半结构化的数据的网络化计算,发展到了分布式数据挖掘。分布式数据挖掘(Distributed Data Mining,DDM)作为一种成熟的挖掘技术已被广泛应用到各个领域,是数据挖掘领域的热点之一。“分布”的含义包括数据的分布和计算的分布两层含义。在分布式计算环境中,用户、数据、计算硬件、数据挖掘软件均可能在地域上分散。分布式数据挖掘旨在解决分散的同构和异构数据库的挖掘问题;同时,数据的分布性带来处理的并行性,则可能解决海量数据挖掘的可伸缩性(Scalability)瓶颈[1]。

随着科学技术的飞速发展,人类社会信息正以每18个月产生的数量等于过去几千年的总和的速度不断增加[1]。尤其是随着物联网产业的迅猛发展,越来越多的应用终端被接入网络,随之带来的庞大的数据量极大的增加了人们从海量数据中发现有用知识的难度。物联网产生的数据具有数量大,高度分散的特点,传统的分布式数据挖掘已经无法解决现有数据处理瓶颈问题[2]。作为新兴商业计算模型的云计算,为分布式数据挖掘提供了许多新的解决思路和方案。云计算是数据管理技术发展的必然趋势,能对分布在大量计算机上存储的资源池上进行操作,使基于云计算平台的应用能根据需要获取所需的存储空间,软件服务和计算能力。目前,IT巨头正在相继开发云计算平台、云计算终端和服务器。

1 数据挖掘算法分类

数据挖掘算法有很多,从不同的视角,数据挖掘技算法可以有根据发现知识的种类分类、根据挖掘的数据库的种类分类和根据采用的技术分类的几种常见分类标准[3]。

1)根据发现的知识种类,数据挖掘算法有:关联规则发现、分类或预测模型知识发现、数据总结、数据聚类、序列模式发现、依赖关系或依赖模型发现、异常和趋势发现等多种算法。

2)根据挖掘的数据库的种类,数据挖掘有基于各种数据库的挖掘算法:关系型、面向对象数据库、空间数据库、时态数据库、文本数据源、交易型、多媒体数据库、异质数据库、遗留数据库等,已经基于数据仓库、基于Web的挖掘算法等。

3)根据挖掘方法采用的技术,可分为:统计分析、机器学习方法、模式识别、面向数据库或数据仓库的技术、可视化技术和神经网络等挖掘算法。其中,常用的统计方法可细分为回归分析、判别分析、聚类分析(系统聚类、动态聚类等)、探索性分析等。机器学习方法可细分为:归纳学习方法(决策树、规则归纳等)、基于范例学习、遗传算法等。数据库方法主要是多维数据分析或OLAP方法,另外还有面向属性的归纳方法。

基于云计算分布式数据挖掘算法是在这些数据挖掘算法的基础上,采用云计算平台实现的数据挖掘算法,也可以采用这样的分类标准进行分类。然而,由于有各式各样的数据存在,每一种挖掘算法都应用到具体的数据类型上,对数据类型的要求是有限制的,一种算法不可能会适应所有数据类型的挖掘应用。因此,在考虑不同数据类型的挖掘和具体的应用时,如何选择合适的挖掘算法是非常重要的。当然,在实际应用中,往往结合多方面的因素,考虑算法的优缺点,采用多种算法实现有效的挖掘。

2 不同数据类型对应的挖掘算法

随着信息量的剧增,数据的种类也不断增多。从粗粒度来看,数据挖掘常应用到如下几种数据形式:文本型(Textual)、关系型(Relational)、

事务型(Transactional)、面向对象型(Objected-Oriented)、主动型(Active)、空间型(Spatial)、时间型(Temporal)、多媒体(Multi-Media)、异质(Heterogeneous)数据库和遗留(Legacy)系统等。从挖掘的数据特性出发,专家和相关研究人员将数据挖掘归为如下几种技术:[4,5]

1)分类。分类算法适用于以元组构成的关系型数据形式,关系型中的一个数据属性可以看作分类输出的目标属性,其他属性作为分类算法数据模式(输入)。这类算法的主要目的是对训练的数据集进行挖掘,以发现另外的数据为目标得出数据分类的原理,这个原理可以用于后加入数据的分类。如果预测的变量是离散的,这类问题成为分类;如果预测的变量是连续的,这类问题成为回归。基于云计算常用的分布式挖掘算法实现关系型数据的挖掘主要有基于K-最邻近方法的分类算法、云计算环境下朴素贝叶斯文本分类算法、基于神经网络、基于范例的推理、决策树和径向基函数等分类算法。

2)聚类分析。聚类分析和分类算法相似适用于关系型数据的挖掘。聚类是在事先不规定分组规则的情况下,将数据按照其自身特征划分成不同的群组进行挖掘,以期从潜在的数据中发现新的、有意义的数据分布模式。聚类方法主要有划分聚类、层次聚类、基于密度的聚类、基于网格的聚类和基于模型的聚类。云计算聚类算法常用的有基于云计算的并行k均值聚类算法等。

3)关联规则。关联规则适用于事务型、交易型和关系型数据,但对关系型数据要求按事务分组。最适合处理的变量类型是布尔型和数值型。布尔型关联规则处理的值都是离散的、种类化的,而数值型关联规则可以和多维关联或多层关联规则结合起来。关联规则挖掘主要是发现大量数据中项集之间有趣的关联或相关联系,关联规则研究有助于发现交易数据库中不同商品(项)之间的联系以应用于商品货架布局、货存安排以及根据购买模式对用户进行分类。云计算环境下的常用关联规则分布式挖掘算法有:Apriori算法,已经出现了多种对Apriori算法改进的版本。

4)基于模式的相似性查找。该算法适用于于文本型和时间型数据,进行文本相似性搜索和时间相似性。时间序列数据是一类重要的复杂数据对象,对时间序列数据库进行挖掘能发现时间序列中所蕴涵的知识,数据挖掘技术在时间序列中的主要应用有规则发现、周期模式挖掘、相似性搜索和序列模式发现等方面。文本数据是最常见的一种数据,基于文本相似型的挖掘可以实现文本雷同度与相似性的研究。常用的算法有基于云模型的时间序列分段聚合近似方法、基于模糊聚类的文本挖掘算法、基于云计算的ARMA算法和基于离散傅立叶变换的时间序列相似性查找算法等。

5)时间序列或趋势发现和分析。该技术主要用于时间型数据,通过对不同时间点以前时间数据值的变化,发现或预测未来可能的变化和趋势,如股票的预测就是这种一个好的时间序列趋势析例子。常用的算法有神经网络算法、支持向量机算法等。

此外,除了上面提到的常用数据类型的挖掘,对空间数据的挖掘多采用空间聚类分析和空间OLAP等方法;对多媒体数据的挖掘多采用基于规则的决策树分类算法;对于应用在智能终端上的普适数据多采用机器学习和统计的挖掘算法。

3 结束语

本文首先介绍了云计算和分布式数据挖掘的相关知识,随着Internet的普及和数据的海量增加,二者相结合能解决分布式数据挖掘的瓶颈问题,是今后的一个发展方向。本文重点针对不同的数据类型采用的基于云计算的分布式挖掘算法进行了对比,为基于云平台的分布式数据挖掘系统的开发提供了支持。云计算为海量和复杂数据对象的数据挖掘提供了基础设施,为网络环境下面向大众的数据挖掘服务带来了机遇。

参考文献:

[1]张诚、郭毅,专访中国科学院计算技术研究所-何清博士,数字通信,2011,3:5-7.

[2]陈磊、王鹏、董静宜、任超,基于云计算架构的分布式数据挖掘研究,成都信息工程学院学报,2010,12:777-579.

[3]邵峰晶、于忠清著,数据挖掘原理与算法,北京:水利水电出版社,2003.08.

第5篇:神经网络文本分类范文

关键词:文本自动分类技术,分词,特征提取,向量映射,机器学习

1. 引言

文本自动分类最初是应信息检索(Information Retrieval)系统的要求出现的。文本自动分类系统的目的就是对文本集进行有序组织,把相似的、相关的文本组织在一起。它作为知识的组织工具,为信息检索提供了更高效的搜索策略和更准确的查询结果。现有文本自动分类技术主要有基于知识库(专家系统)方法和归纳学习方法(基于词典的方法)。目前比较常用的是基于词典的方法,即通过已知类别的训练集构造出一个分类函数或分类模型(分类器),并利用此分类模型将未知的文档映射到给定的类别空间。本文根据中文文本分类所要用到的算法和技术,给出了一个可行的中文文本分类系统的基本构架,并给出了详细的系统设计方案。其中文本分类的关键是如何构造分类函数(也称为分类器),将未知文本与给定的类别模板进行匹配。目前有许多种分类器的构造方法,如统计方法、机器学习方法、神经网络方法等。其中基于关键词匹配的机器学习算法是网页文本自动分类的主流。机器学习算法主要有Naive Bayes算法、KNN(k-近邻算法)、SVM(支持向量机)等。本系统在文本处理的过程中,将采用SVM分类算法,将文本映射到向量空间进行表示。

2. 系统设计目标

(1)本系统的主要目的是实现一个面向中文的文本分类系统。主要处理两类事务:

对样本数据进行学习,生成分类器的内部表示。在这个事务的处理过程中,系统要协调分词模块对训练样本进行预处理,生成规范的文本表示。接着要协调特征提取模块提取适当数量的特征生成基础词典。然后调用向量映射模块将文本表示为向量,最后提供给支持向量机进行学习。

    利用生成好的分类器对未知测试文本进行分类。在这个事务的处理过程中,系统要打开上一个事物生成的中间数据——基础词典,协调向量映射模块利用词典把文本表示成向量,然后用分类器对文本进行分类。

(2)对应系统的两类事物,系统的输入也分为两类:

训练文本集:已经由人工分好类的一系列中文文本的集合,每类文本赋予一个分类标签。这些文本可以是原始文本数据,也可以是经过预处理后,只剩下词干的预处理格式。

    测试文本集:待分类的一系列中文文本的集合,这类文本可以没有分类标签,也可以有分类标签。如果没有分类标签则用系统进行分类。如果有分类标签则可用来验证系统分类的准确度。

(3)系统的中间数据。通过前面对系统两类事务流程的描述,可以看到有如下数据输出:

基础词典。这个数据集是向量空间模型中基础维的表示。它包含了系统用来将文本表示为向量时选取的特征词根。同时它也存储了特征词根在训练文本中的基本统计数据:词根出现的文档数目;词根在每类中出现的文档数目。

训练文本的向量表示。这个数据集是训练文本用基础词典在向量空间模型下映射的向量表示。它可以被支持向量机读取并学习。

分类器模型。这个数据集是支持向量机学习后生成的分类器。它包含了能将文本进行分类的源数据。

       分类标签。这个数据集是系统对测试文本集分类后的分类标签。

3.系统设计思想

在一个中文文本分类系统的实现过程中,有分词、特征提取、向量表示和机器学习四个主要步骤。在每个步骤中多存在着许多不同的策略和实现方案。在本系统的实现过程中,希望能够兼容不同的策略,并提供一定的方案由用户进行扩展。

出于对上面要求的考虑,主要采用Bridge(桥梁模式)和Listenner(监听器模式)。

在流程耦合度低处,使用Bridge模式(如图1),为每个步骤提供一个抽象化(Abstraction)角色,同时提供不同实现和不同策略实现化(Implementor)角色。通过这个模式的应用做到了对不同策略的兼容和提供可扩展性的接口。

                                                    图1:Bridge模式

在流程耦合度较高处,使用监听器模式,将特定步骤抽象成监听器,进而将步骤独立出来。再通过监听器的不同实现完成不同策略的异构。

4.总体设计

本系统由分词模块、特征提取、向量映射模块,SVM学习模块和SVM分类模块五部分组成。总体框架设计如图2:

                                                        图2:系统总体设计图

本系统主要流程就是对数据的加工处理,每个模块都有自己的输入和输出,各模块间相互独立,以各自的输入、输出数据进行链接。流程1为分类系统的训练过程,流程2为分类系统的分类过程。词条字典、训练文档向量表示、测试向量文档表示是流程中间数据,SVM分类器和分类标签是最终数据输出结果。

5.各模块功能描述

分词模块:对中文文本进行分词

输入输出:模块输入为中文文本,输出为文本分词表。

特征提取模块:对给出文本建立向量空间模型,并进行特征提取和维度压缩,生成字典

输入输出:模块输入为分词表,输出为词条字典。

向量映射模块:按照词条字典把中文文本映射为向量表示形式。

输入输出:模块输入为文本分词列表和词条字典,输出为文档向量表示。

SVM学习模块:用SVM对向量和字典进行学习,生成学习模型。

输入输出:模块输入向量表示的文本训练集,输出为训练SVM分类器。

SVM分类模块:用SVM学习模块的训练得分类器对测试文本进行分类。

输入输出:模块输入为SVM分类器和测试文本的向量表示,输出为分类标签。

6.结束语

中文文本的自动分类是中文信息处理领域中的重要研究课题。本文对中文文本分类技术做了初步的探讨,给出一个基于中文文本自动分类系统分析。首先,分析系统的输入、输出以及中间过程,从而明确系统的设计目标。接着进一步解析系统内部的组织结构,形成统一的设计思想。最后,结合这些分析给出一个系统的框架的设计。按照该系统的设计思想和进一步的详细设计可以搭建一个相对系统化、功能较为全面、具有较高效率的中文文本自动分类系统平台。由于整个系统涵盖的范围较大,设计到的技术细节多,在很多实现细节上采用了比较简单的方法,以便于整个系统的顺利实现。今后在很多方面还需要继续进行深入的研究,以提高整个文本自动分类过程的识别准确率。

   本文作者创新点:对中文文本自动分类系统进行分析给出一个系统框架设计,按系统设计思想和进一步的详细设计可搭建相对较高效率的中文文本自动分类系统平台。

作者对本文版权全权负责,无抄袭

第6篇:神经网络文本分类范文

关键词:图书馆;乱架检测;图像分割;字符识别;深度学习

中图分类号:TB

文献标识码:A

doi:10.19311/ki.16723198.2016.25.087

1概述

利用现代智能处理技术特别是用计算机代替人们自动的去处理大量的图像信息,能够解决人类器官的分辨能力容易受到环境、情绪、疲劳等因素的影响,从而部分代替人工劳动,大大提高生产效率。近年来,将传统的工作进行数字化和自动化加工逐渐成为图书馆行业越来越重视的工作内容之一。但是目前的图书馆数字化工作仍存在众多没有解决的问题。

图书乱架的整理工作是图书馆日常维护工作的一个重要组成部分。由于书籍众多,当出现不同种类的图书放置在一起时,工作人员很难人工将错误放置的图书进行正确地归类,即使能够做到,也会花费很长的时间和大量的精力,导致人力资源的浪费。

2006年,深度学习(Deep Learning)开始在学术界和工业界引领发展前沿,其中深度学习认为:1)多隐层的人工神经网络学习得到的特征对数据有更本质的刻画,有利于分类和检测;2)深度神经网络在训练上的难度,可以通过“逐层预训练”来有效克服。基于深度学习的图像视觉识别技术已经在许多行业中得到了应用,如检验零件的质量;识别工件及物体的形状和排列形态等。

本文结合图书馆日常管理中遇到的图书乱架这一实际问题,以书脊视觉图像为切入点,引入深度学习中的SoftMax回归,设计出一种包括单册图像分割、字符识别、语义特征提取以及归类判别等环节的图书乱架检测算法,其有效性已在实验中得到较好的验证。

2书脊图像的定位分割

由于获取的图像有可能会出现模糊,因此需要对图像进行预处理。将拍摄的书脊图像近似看成平稳过程,使用Wiener滤波器进行幅度相位去模糊。Wiener滤波器的基本原理是将原始图像f和对原始图像的估计f^看作随机变量,按照使f和对估计值f^之间的均方误差达到最小的准则进行图像复原。

然后使用Canny算子进行边缘检测,并进行纵向和横向的直线跟踪,对两条直线之间的区域进行判断,如果是书脊区域,就进行分割,然后定位第二本书,直到处理完整幅图像。

图1(a)为利用Canny算子进行边缘检测出来的结果,得到了所有书籍的边缘;图1(b)是对书籍进行分割定位的结果,把定位到的目标用直线标出,以供后续处理。

3书脊图像的字符识别

由于汉字的类别较大、结构复杂和类似字多,造成汉字的识别难度比较大。传统的仅用一种特征来识别汉字的方法已不能满足汉字识别的要求。因此,本文采用了二次识别的方法对汉字字符进行识别,第一次分类利用汉字的笔画穿过数目特征,第二次是对那些首次仍不能区别开的汉字利用汉字四角的能量值密度特征进行区分。

本文的汉字特征选择了笔画穿过数目和能量值密度这两个特征。笔画穿过数目是指对汉字图像的水平、垂直两个方向进行扫描,然后统计这两个方向上扫描线出国汉字笔画的次数即得到汉字的笔画直方图,得到笔画穿过次数的特征向量。

在进行汉字特征匹配时,首先对待识别的汉字笔画穿过数目特征进行提取,记该特征为C。识别时,首先计算待识别汉字与标准库中汉字的距离d,d定义为待识别汉字的笔画穿过数目矩阵C与标准库中汉字的笔画穿过数目矩阵B的对应值差值的绝对值之和,其表达式为

d=∑ni=1∑mj=1cij-bij

式中cij为矩阵C中的元素,bij表示矩阵B中的元素。

给定一个阈值σ,若距离dσ,则该字不能被识别,否则把该字放入二级识别队列中,如果二级队列中只有一个字,就判别这个字为要识别的字,若二级队列中不只一个汉字,则要对二级识别队列中的汉字进行二级识别。

在二级识别里用能量值密度作为特征,提取这些汉字的能量值密度。设一阈值为ε,计算待识别汉字的能量值密度矩阵和标准库汉字的能量值密度矩阵中对应值的绝对值之和,差值最小的汉字判别为要识别的汉字。

4语义特征提取

利用识别出来的字符,对其进行语义特征的提取,以判断书籍属于哪一类。首先通过在原始文本语义空间提取文本的局部分布信息,构造拉普拉斯矩阵和局部密度矩阵,然后通过奇异值分解SVD和广义特征值分解GEVD求解特征变换矩阵,最后实现文本数据的降维空间聚类。

给定m个文本数据的原始特征语义空间描述X=(x1,x2,…,xm)T,这里xi为文本i的特征向量描述,包含文本类别信息相关的关键词、主题词以及文本中出现的高频词等描述信息,并且xi中的每一个特征元素记录了这些词条的重要程度和出现的频度。

对X按列进行基于欧几里得距离的kNN近邻算法获取点向量xi的k个邻近点N(xi),并采用高斯核将邻接点向量的欧几里得距离转化为相似度:

sij=exp(-xi-xj2),xj∈N(xi)

得到文本集X的相似矩阵S,该矩阵为对称矩阵。通过矩阵S构造对角矩阵D,其中dii=∑jsij,令L=D-S,为谱图数据的拉普拉斯矩阵,为对称矩阵。利用局部密度矩阵D求取文本向量均值=∑ixidii∑idii,并将文本归一化i=xi-,对归一化的进行奇异值分解,降低文本的语义维度,简化数据描述。并通过非监督判别分析得到降维文本语义空间,即判别语义特征提取,获取分类判别能力最强的前l个语义特征。

在特征提取后的降维空间采用k-means聚类,进行文本分类,即语义特征的提取。

5书籍乱架放置的判别

进行了语义特征提取之后,为了检测书籍的乱架放置。因此,需要将提取到的语义特征进行分类。为了尽可能准确地进行分类,采用深度学习的方法进行模型的训练。其中训练过程分为两个阶段:贪心的逐层预训练和整个模型的全局微调。

在逐层训练预阶段,每次只训练模型的一层,然后将当前层的输出作为下一层的输入,进行下一层的训练,直到预训练完所有的层。

在模型的全局微调阶段,由于乱架放置的书籍的种类可能是多个,所以采用softmax回归多类分类器。Softmax回归多分类器是logistic回归模型在多分类问题上的推广,在多分类问题中,类标签y可以取两个以上的值。假设共有k个类别,则softmax regression的系统方程为

hθ(x(i))=p(y(i)=1|x(i);θ)p(y(i)=2|x(i);θ)p(y(i)=k|x(i);θ)=1∑kj=1eθTjx(i)eθT1x(i)eθT2x(i)eθTkx(i)

其中,x(i)为第i个输入样本,θ为系统参数,p为样本取特定类别时的概率。

此时,系统的损失函数方程为:

J(θ)=-1m∑mi=1∑kj=11y(i)=jlogeθTjx(i)∑kl=1eθTlx(i)

其中,1・是一个指示性函数,即当大括号中的值为真时,该函数的结果就为1,否则其结果为0。θ为代价最小化时所需要满足的系统参数。实际实现时,首先使用具有先验归属标记的书籍信息样本按照以上方式对书籍归属学习器进行训练,得到训练好的归属规则学习器。将提取的书籍信息输入到归属规则学习器,学习器输出到归属规则库进行书籍类别的判别,将判别出来的结果输入到乱架判决器,进行乱架检测,如果检测出来有书籍分错类,则会输出乱架警报。

6实验结果与分析

利用书脊检测出来的结果,进行字符检测并对检测出来的字符进行语义识别,判断某一本书是不是放错了类别,如果放错,则框出放错的书籍并发出警报。

图2(a)中都是科技类的书籍,并没有其他类的书籍,所以输入的这张图片并不会输出乱架报警;图2(b)中除了科技类的书籍之外,还有一本建筑类的书籍混杂其中,所以系统会把这本书检测出来并用交叉直线醒目地标示出来。

中除了科技类的书籍之外,还有一本美术类的书籍混杂其中,所以系统会把这本书检测出来并用直线标示出来。

图2和图3只是笔者为了演示系统的运行效果而给出的个例图示,限于篇幅所限不能穷尽所有曾经检测处理过的案例。笔者曾经对科技类、哲学类和艺术类为主体的大容量样本集的乱架图像进行了分析,每个样本集的分析耗约为300~320秒,大大高于人工检测的速度。乱架检测实验的样本集实验结果列于表1之中。

7结论

在图书馆系统中利用机器视觉的方法进行书籍定位和检测是视觉研究的一个重要方向。本文给出了一种综合运用相关视觉图像技术对乱架图书进行自动检测的系统设计。实验表明,该方法可通过程序设计完全有计算机自动实现,平均检出率超过90%,速度快稳定性好,处理时间大大小于人工检测时间,并且能够在很大程度上降低图书管理员的劳动强度,有助于提高大型图书馆的架上书籍整理效率。

参考文献

[1]李因易.图像处理技术在图书馆藏书清点中的应用研究[D].贵阳:贵州大学,2006.

[2]方建军,杜明芳,庞睿.基于小波分析和概率Hough变换的书脊视觉识别[J].计算机工程与科学,2014,(36):126131.

[3]何耘娴.印刷体文档图像的中文字符识别[D].秦皇岛:燕山大学,2011.

[4]D.-J. Lee,Y.Chang,J. K.Archibald,C.Pitzak.Matching book-spine images for library shelf-reading process automation[C].in Automation Science and Engineering,2008.CASE 2008. IEEE International Conference on, 2008:738743.

[5]戴臻.内容文本分类中的语义特征提取算法研究[D].长沙:中南大学,2010.

[6]Y.Bengio, Learning deep architectures for AI[J].Foundations and trends in Machine Learning, 2009,(9):1127.

[7]Y. Bengio.Deep Learning of Representations for Unsupervised and Transfer Learning[J].in ICML Unsupervised and Transfer Learning,2012:1736.

[8]P.Baldi. Autoencoders, Unsupervised Learning,and Deep Architectures[J].in ICML Unsupervised and Transfer Learning,2012:3750.

第7篇:神经网络文本分类范文

关键词:短文本挖掘;新闻事件挖掘

中图分类号:TP274+.2文献标识码:A文章编号:1007-9599 (2010) 06-0000-01

Text Mining of News

Zhang Jing

(Tangshan Normal University,Studies Affairs Office,Tangshan063000,China)

Abstract: With the massive popularity of the Internet,causing a large amount of text data accumulated,much of it is a short text data.How to find information from the mass of information flow theme of unexpected events,and track information about emergencies,text mining technology is especially important.This article describes the text mining text mining in the application of information,analysis the research of mining news events.

Keywords:Short text mining;News mining

一、引言

近年来,随着互连网的飞速发展和信息传播手段的不断进步,造成了大量的文本数据累积,其中很大一部分是短文本数据。这些数据中有很大一部分是只包含50―100个词的短文本数据,如文章摘要、电子邮件、图片标题、产品描述等。网页上的大部分信息都是短文本信息。文本挖掘技术对于从这些海量短文中自动获取知识具有重要意义。本文介绍了文本挖掘在新闻文本挖掘中的应用,分析了新闻事件挖掘的研究现状。

二、文本挖掘概念

文本挖掘是采用计算语言学的原理对文本信息进行抽取的研究和实践文本挖掘可以对文档集合的内容进行总结、分类、聚类、关联分析以及趋势预测等。Web文本挖掘和通常的平面文本挖掘有类似之处,但是文档中的标记给文档提供了额外的信息,可以借此提高文本挖掘的性能。

三、文本挖掘在新闻文本挖掘中的应用

“新闻的处理,是一种对事实的选择、安排、解释等意义化过程”,作为文字传播的一种特殊形态,新闻在语言表达上有着较为明显的个性特征,如篇章短小精干、表达客观公正、语言准确简洁等。新闻专题是指围绕某一个突发的新闻事件或某一个广泛受关注的问题提供详细、深入的资料。这样的专题信息目的明确、信息丰富,让人一目了然地清楚整个新闻事件的前因后果和来龙去脉,能够较好地满足读者的需要。但通常情况下,这些新闻专题都是经过专业人员加工处理的,即人工归纳到一起。新闻事件挖掘的目的是,是借鉴文本挖掘技术、文本分类和聚类技术,实现对新闻资料的自动组织、生成专题,以满足网络用户检索新闻信息的需要。专题的生成涉及到新闻事件的探测以及对新闻事件的跟踪。

四、新闻事件挖掘的研究现状

目前对于新闻事件的挖掘主要包括以下几类问题:

(一)主题发现与跟踪(Topic Detection and Tracking,TDT)

主题发现与跟踪旨在开发一系列基于事件的信息组织技术,以实现对新闻媒体信息流中新话题的自动识别以及对已知话题的动态跟踪。该研究作为一项1997年开始的公开测评而成为自然语言处理的一项研究热点。TDT包括五项子任务,即:主题分割、话题跟踪、新事件发现和报道关联发现。

主题分割主要采用相同词语数目和词语密度的方法,其优点在于简洁性和高效性,不受领域的限制。目前已有TextTiling算法等方法用于主题的分割。采用遗传算法对TextTiling算法中的参数进行优化,使得同一主题内的段落之间的总差异应尽可能地小,而不同主题间的总差异应尽可能地大。也有研究采用遗传算法来直接寻找主题的最优划分。骆卫华提出了基于分治多层聚类的话题发现算法,其核心思想是把全部数据分割成具有一定相关性的分组,对各个分组分别进行聚类,得到各个分组内部的话题(微类),然后对所有的微类在进行聚类,得到最终的话题。

(二)热点趋势检测(Emerging Trend Detection,ETD)

热点趋势检测用来自动识别热点主题,从而识别主题趋势的变化。热点趋势检测主要包括三个部分:主题结构的识别,主题出现的检测和主题特征分析。总结了目前研究的ETD系统和商业的ETD系统,其使用方法大多数以关键词的词频分析为基础,形成相关主题的发展趋势。例如,采用关键词项词频分析的方法,寻找芯片封装领域内的技术发展规律。对于这类问题需要优化关键词的选择,看哪一个或者哪一些关键词与该主题上的关系最为密切。也有的研究使用序列模式挖掘来识别短语,生成短语的历史图,使用形状查询来识别指定趋势的短语。

(三)事件预测规则的发现

该问题主要采用文本挖掘技术,同传统的人工智能方法相结合,对于时序文档集的关联规则的进行挖掘,提供相应事件发生的预测规则。

很多研究根据互联网上的新闻稿来生成股票价格指数的规则。Wuthrich使用专家的先验知识,通过对过去的新闻中出现的关键词组的权重和对应的值产生可能性的规则,再利用这些规则对当天的新闻进行股票指数的预测。将关键词组转换成权重,采用基于规则、最近邻和神经网络的方法。Feldman等人使用多种分布模型对路透社的2万多篇新闻进行了挖掘,得到主题、国家、组织、人、股票交易之间的相对分布,揭示了一些有趣的趋势。而Mittermayer则自动对新闻稿进行预处理,将它们分成不同的新闻类型,其每一类都对股票价格升降有特定的影响,从而得到对应的交易指导规则。

五、结论

文本挖掘是挖掘的核心技术,将其文本聚类与分类等技术应用到新闻主题的检测与跟踪中,能自动在线检测内容不断更新的网络新闻主题,提高了处理的速度,能及时提取更多有价值的信息给用户,这是一个具有十分重要意义的课题,这项研究还需要进一步的深入。短文本挖掘技术是文本挖掘中的一个新兴的方向,针对于短文本特点的方法有待于人们的进一步研究。

参考文献:

[1]钟彬彬,刘远超,徐志明.基于GA的文本子主题切分中的参数优化研究[J].计算机工程与应用,2005,21:97-99

第8篇:神经网络文本分类范文

关键词:数据挖掘原理与算法;实例;教学探索

0.引言

随着经济、科技和信息技术的飞速发展,特别是网络技术的发展,数据的产生和存储能力有了很大程度的提高。数据挖掘的出现,为人们提供了一条解决“数据丰富而知识贫乏”困境的有效途径Ⅲ。所以很多高校,包括世界上一些著名高校都开设了数据挖掘课程。课程的基础理论部分一般包括数据预处理、关联规则、分类、聚类、时间序列挖掘、Web挖掘等内容。该课程使学生学会分析研究数据挖掘中数据预处理、常用算法、结果的可视化等技术,并培养学生的数据抽象能力,帮助学生形成科学思维和专业素养,使他们毕业后在就业上有更多的选择。

笔者将探讨基于实例教学的数据挖掘课程的教学内容安排,强调淡化学科背景,加强算法的应用性训练,将实际的例子贯穿于教学中,并重新组织授课内容、安排实践环节,教会学生学以致用。

1.教学现状分析

1.1课程本质

数据挖掘原理与算法涉及的学科领域很宽泛。其最终目的是在数据中挖掘出可供人们利用的知识和信息,因此数据挖掘技术要从数据库技术、统计学、机器学习、神经网络、知识系统、信息检索、高性能计算和可视化等领域汲取营养。另外,每个学科都在进行着日新月异的发展变化,数据挖掘技术遇到的挑战也为相关学科领域的深入研究提供了新的契机。由于课程难度较大,很多高校把这门课程作为研究生的专业课程,也有院校将此课作为本科生高年级选修课开设脚。但是本科生开设这门课程的普通院校较少,我们能借鉴的教学经验有限。

1.2数据挖掘课程教学环节的弊端

①某些学校对本科生开设的数据挖掘课程,其教学过程对理论的探讨过多,与应用存在距离,没有体现出这门课程面向应用的特质,缺少对学生工程能力的训练,存在学生在学了这门课程后不知道能干什么的现象。

②教学形式呆板单一。传统的教师讲、学生听的教学模式,很难引起学生的探究兴趣,不利于发挥他们自身的能动性和创新动机。

2.选择恰当实例贯穿数据挖掘课程的教学过程

烟台大学计算机学院所开设的数据挖掘课程在教学上安排了6章内容,涉及3个实例(其中两个是实际生活中的项目课题):第1个是用于房产信息调查的房产客户关系管理系统;第2个是用于烟台大学督评中心评教文本分类的中文文本数据挖掘系统;第3个是用于国家葡萄酒检测中心的数据分析的葡萄酒成分数据挖掘系统。

2.1房产客户关系管理系统

在讲述房产客户关系管理系统时内容涵盖绪论、知识发现过程和关联规则3章,重点讲授内容包括:

(1)数据仓库。住房管理数据仓库中的数据是按主题组织的,可从历史观点提供信息。数据挖掘技术能按知识工程的方法完成高层次需求,可以发现蕴藏在数据内部的知识模式。挖掘后形成的知识表示模式可为企业决策提供支持。

(2)通过对客户信息进行分析,阐述关联规则的参数:support、confidence、expected confidence,并简单介绍关联规则中的多维、多层次等拓展知识。

(3)关联规则挖掘。①讲授关联规则挖掘的Apriori算法;②讲述布尔关联规则的概念,对处理后形成的交易数据库进行布尔关联规则挖掘,将问题转化为寻找以决策属性为结果的规则;③将关联规则挖掘应用于客户关系管理的最终目的是努力将潜在客户转变为现实客户,将满意客户转变为忠诚的终生客户,提高客户满意程度,降低市场销售及宣传成本,增加利润率。

(4)设minsup=10%,minconf=70%。在统计的各类人群中猎取咨询的渠道主要是杂志、报纸、互联网和电视。经试验统计后得到以下有关知识:①满足age>50 AND职业=“工人”的客户占所统计总人数的9.7%;其中满足age>50 AND职业=“工人”AND渠道=“TV”的客户占92%。②符合学历=“大专”AND职业=“工人”的客户占所统计总人数的24.8%,其中满足学历=“大专”AND职业=“工人”AND渠道=“newspaper”的客户占82%。③被统计人群中满足income=“5000-9000”AND职业=“教师、医生、公务员”的客户占所统计总人数的32.7%;其中满足income=“4000-6000”AND职业=“教师、医生、公务员”AND渠道=“杂志”的客户占83%。④被统计人群中满足学历=“本科”AND income≥“10000”的客户占所统计总人数的占11.6%;其中符合学历=“本科”ANDincome≥“8000”AND职业=“公司经理”AND渠道=“杂志”的客户占86.5%。

(5)教师要分析Apriori算法的瓶颈和改进,介绍Close算法和FP-树算法,并且要求学生们掌握这3种经典算法。

2.2中文文本数据挖掘系统

中文文本数据挖掘系统围绕评教分类模型的建立讲述特征选择和主要分类算法。根据烟台大学教学督评中心提供的学生对教师的中文评教文本,利用分类的方法找出其评价的倾向性,结合教材,重点讲授了以下内容:

1)特征选择。

①介绍有监督、无监督和半监督的特征选择方法。②介绍使用分词软件后,统计词频,去掉小于阈值的低频词。③对比词频率、IG值(信息增益)、期望值差异对分类结果的影响留取特征词。

部分数据示例如下:用特征选择的方法对重要的属性进行抽取,略去对分类影响不大的属性,达到降维的目的,把特征选择作为预处理。我们选用517条主观评价作为训练样本,其中233条留言是一般评价,采用以下3种方式进行特征选择:词频率、IG值(信息增益)、期望值差异。不同方式特征选择对分类准确性的影响如表1所示。

2)分类。

在介绍常用的分类基础知识和决策树、ID3、朴素贝叶斯分类、最近邻分类算法之后,又介绍了基于潜在语义分析的降维技术,讲授了支持向量机(SVM)适用于文本分类的原因。布置给学生的任务是用爬虫获取网评,作倾向性分析。

评教文本分类统计后的结论是:将降维技术和支持向量机算法结合在评教模型的建立过程中,研究讨论的主要内容有:①各个指标取不同值对分类的影响,这些指标主要集中在特征抽取和选择、保留词性和降维维数等几方面;②对分词后的文本进行特征选择,筛去了词频数小于4的文本;③降维至30维,并适当设置SVM中的可变参数,找到合适的训练一测试样本的比例,最后综合出一个现有条件下的最佳分类模型。

2.3葡萄酒成份数据挖掘系统

葡萄酒成份数据挖掘系统介绍数值数据的预处理和聚类2章内容。对葡萄酒成份的分析是根据所提供的酒中各成份的含量数据,采用聚类或分类的方法确定某种葡萄酒的种类,比如是红葡萄酒、白葡萄酒还是甜葡萄酒。围绕这个问题我们介绍了如下内容:

1)数值数据的预处理。

①介绍葡萄酒中各个属性的含义和取值范围;②讲授数据的离散化技术,如等深、等宽、聚类技术;③讲授本例中使用的m一估值计算对数值属,1生的离散化技术;④讲述本例中如何避免0值出现及去噪声技术。

葡萄酒中各成份的含量数据如表2所示。

2)聚类。

在介绍聚类的基本知识和常用算法(如k均值、k中心点、DBSCAN技术)之后,讲解了:①本课题使用的层次聚类算法。在测试结果时通过测试样本和分类样本的不同比例,对结果进行了对比。②讲述了用朴素贝叶斯分类计数对这一问题的分类处理,同时对比了聚类和分类算法在同一问题上的结论差异。利用朴素的贝叶斯分类器可以完成预测目标,根据训练样本建立分类器,对待测样本进行预测,准确率可达到90%以上。③引导学生思考对问题的处理可以联合使用各种算法,并分析各种算法对结果的影响,从而找出解决问题的最佳方案。

2.4利用已知算法和实例讲授Web挖掘技术

因特网规模庞大、结构复杂、动态变化性大,蕴含大量的信息。将Web上丰富的信息转变成有用的知识正是Web挖掘的意义所在。用之前中文文本分类的方法引导学生在一些购物网站中下载对商品评论的中文文本,抽取特征词,进行倾向性分析,使学生熟悉支持向量机的分类方法,分词软件的使用及文本挖掘的整个过程。

3.结语

文章在前期制定应用型本科生数据挖掘课程教学大纲的基础上,针对数据挖掘课程内容多学科交叉的特点,在教学中提出淡化学科背景,注重算法应用与实践,以客户关系管理、葡萄酒数据分析、中文评教文本分类等实例作为授课内容主线,让实例教学始终围绕着典型的算法和前沿知识展开的教学方式。在今后的教学工作中,我们还应该不断站在学科发展的前列,经常更新实例,使其更好地融入教学,将教与学有机统一,取得更好的教学效果。因此我们还有大量的工作需要探索研究。

参考文献:

[1]宋成,李晋宏,项目驱动的数据挖掘教学模式探讨[J],中国电力教育,2011(27):116-177.

[2]刘云霞,统计学专业本科生开设“数据挖掘”课程的探讨[J],吉林工程技术师范学院学报,2010(6),20-22.

[3]徐金宝,对应用型本科生开设数据挖掘课程的尝试[J],计算机教育,2007(7):27-29.

[4]高园园,吕庆文,数据挖掘课程的教学思考[J],医学信息,2009,22(11):23-24.

第9篇:神经网络文本分类范文

关键词:数据挖掘;无监督学习;有监督学习;半监督学习;迁移学习

中图分类号:TP274文献标识码:A文章编号:1007-9599 (2010) 06-0000-07

Summarization of Data Mining Learning Method

Xu Rui

(Guizhou Mobile Corp. Guiyang550004,China)

Abstract: As a new domain of information technology,data mining takes full advantages of database,statistical analysis and artificial intelligence,etc.It is quit important to be familiar with data mining for decision-makers,since it is a new direction of enterprise informationization.In this article,the author summarized some common learning method of data mining,especially the new domain:transfer learning.Finally,the article briefly described difference among these learning methods.

Keywords:Data mining;Unsupervised learning;Supervised learning;Semi-supervised learning;Transfer learning

企业信息化建设经历了办公自动化,信息管理系统,企业资源计划三个阶段,随着企业数据的快速增长,科学决策的广泛应用,数据挖掘和商业智能成为企业信息化建设的新的突破点。数据挖掘综合统计学、人工智能、数据库技术等多学科知识,从海量的数据中迅速发掘有价值的信息。作为一个新兴领域,数据挖掘的研究与应用发展迅速,但数据挖掘并不为企业决策者充分认识。本文将从学习的角度,重点介绍数据挖掘领域常见的算法。

一、引言

数据挖掘算法依据其任务特点,常被分为四类:预测建模、聚类分析、关联分析以及异常检测。另一方面,依据算法所适应的问题类型来分,又可以分为无监督学习(Unsupervised Learning)、有监督学习(Supervised Learning)、半监督学习(Semi-supervised Learning)以及迁移学习(Transfer Learning)。比如针对网页的挖掘,普通用户关注返回结果与自己需求的相关性以及结果展现的可理解性,会更加希望网络搜索引擎进一步将相关的结果根据不同的类别分成不同的组(无监督学习);搜索引擎工程师期望借助由专家进行类别标记的网页,建立准确的引擎,对网页进行分类(有监督学习);为有效提高搜索结果的准确性,搜索引擎通常还会根据用户的搜索习惯或者交互式的反馈,对结果进行筛选(半监督学习);而筛选的结果有时还会用来提供给其他具有类似习惯的用户(迁移学习)。

二、无监督学习

聚类分析通常又被叫做无监督学习。无监督学习可以理解为学习过程中只使用到了训练样本的原始属性,而未涉及到训练样本的类别属性。比如电信行业根据客户消费信息的相似性,将客户归为不同的类别组,并对不同的类别组设计有区别的营销策略和增值服务,在公司内部编制不同的财务成本计算方法。在这一过程中使用的数据都是各营业厅收集的原始数据,得出的结论主要基于对原始数据的相似性归类的结果,在这一归类过程中不辅以任何人为的诸如添加类别标签等指导。

无监督学习方法,或者说聚类算法,通过研究描述数据的属性在不同数据间的相似性,将数据划分为若干有意义的组或者是簇。无监督学习通常要达到两个目标:1.簇内数据尽可能相似;2.簇间数据尽可能相异。为此,无监督学习方法的设计要关注两个关键点:(1)如何评价数据之间的相似性或者相异性;(2)以及如何同时满足所要达到的两个目标。

(一)相似性度量标准

假设用于无监督学习的数据表示形式为X={X1,X2,…},其中X表示用于学习的样本集。对于每个样本Xi,又可以表示为一组属性的集合Xi={xi1,xi2,…,xik},其中k表示描述每个样本的属性数量(或者说维度)。相似度(或相异度)的评价即是设计一个样本之间的距离评价函数d(Xi,Xj)。

对于区间标度类数据,通常可以用明氏距离(式2-1)、欧式距离(式2-1中p为2)、曼哈顿距离(式2-1中p为1)。

(2-1)

对于只有0和1两种状态的二元变量,可以根据两个变量Xi,Xj共同出现时0、1取值的异同,建立距离函数。若令q表示Xi,Xj都取值为1的次数;t表示两者都取值为0的次数;r表示Xi取值为1,Xj取值为0的次数;s表示Xi取值为0,Xj取值为1的次数。则两者的距离函数可以设计为如式2-2,计算两个函数的不匹配率。

(2-2)

但是二元变量常常是非对称的,意思是人们常常关注与取值为1的情况,而其他情况表示为0。比如疾病诊断中,常常把患者疾病检测呈阳性标记为1,而结果呈阴性标记为0。这是Xi,Xj都取值为0的情况(负匹配)被认为不重要的,而只关注两者同时为1的情况(正匹配)。这种情况下通常用Jaccard系数来表示两者的距离函数,如式2-3。

(2-3)

多元变量是二元变量的推广,区别在于可以取得多个状态值。因此,相似地,多元变量的距离函数也通常采用两个对象之间的不匹配率来计算,即Xi、Xj属性取值不相同状态占全部属性的数目。如果多个状态值之间有序,比如说比赛的排名次序,状态的先后次序也是在设计距离函数是非常重要的。这种情况下通常,先将各个取值映射到[0.0,1.0]的区间内,一种简单的方法就是将[0.0,1.0]划分为M-1个区间,M为取值的总数目;然后根据每一个排序后的属性到0.0的区间大小来度量。映射到[0.0,1.0]区间后,可以采用先前介绍的距离函数来进行评价。

由于一个样本的属性常常会包含多种变量类型,可能是区间标度的或者二元、多元的,甚至是非对称的。一种常见的处理方法是将各个属性首先进行归一化处理,将每个属性的取值映射到[0.0,1.0]的区间。比如,区间标量变量,距离函数通过除以最大区间差(属性最大取值减去属性最小取值)来实现映射。对于全部归一化的属性集合,样本利用式2-4的方法进行计算。其中,Iij(k)是指示函数,若xik或xjk缺失,或者非对称二元变量情况下取值同为0,则Iij(k)取值为0;否则取值为1。

(2-4)

文本挖掘中,由于文档对象较为复杂,切以向量形式表示,依靠传统的距离度量计算方式不能获得较好的效果。一种常见的方法是利用描述相似性的余弦度量来建立距离函数,如式2-5。其中XiT表示Xi的转置,||X||表示X的欧几里德范数。

(2-5)

(二)学习策略

常见的聚类算法可以划分为如下几类:

1.划分方法(partitioning methods):划分方法将给定的N个对象构建出数据的k(k≤N)个划分,要求(1)每个划分至少包含一个对象且(2)每个对象属于且只属于某一组。但是在模糊划分技术,第二点唯一性要求可以放宽。

常见的划分方法为K均值(k-means)算法。算法的基本方法是首先初始化K个点作为初始的质心,然后迭代式地将每个点指派到距其最近的质心,形成K个簇,并计算出新的簇的质心;迭代过程持续到质心不再发生变化。

2.层次方法(hierarchical methods):层次方法创建给定数据对象集的层次分解,利用自顶向下或者自底向上的策略不断的建立簇之间的树状关系。

以自底向上策略为例,首先将全部个体点作为独立的簇,然后迭代式的合并最接近的两个簇,并更新簇之间的关系矩阵;迭代过程持续到数据最终合并为一个簇。

3.基于密度的方法(density-based methods):基于密度方法设计的核心思想是邻域中密度较大的点聚集在一起。这种方法可以有效的发现任意形状的簇,而不仅仅是球状的簇。

DBSCAN是一种常见的基于密度的方法。算法核心思想是通过检查每个样本点半径不超过ε的邻域来搜索簇,并利用密度可达关系将密度较大的临近的簇合并起来。如果一个点的ε的邻域中包含大于某个阈值的样本数,则将此样本作为这个簇的核心对象,而邻域内的所有点对核心对象来说都是“直接密度可达”的;将直接密度可达的样本链接起来,则说这些点都是密度可达;通过合并密度可达的核心对象所代表的簇,算法最终可以寻找出任意形状的簇,并剔除噪声点。

三、有监督学习

有监督学习‎常被认为是分类的另外一种说法(也有学者认为只是分类过程的第一步),这是因为建立分类模型时,总是要求用来学习的样本具有完整的类别标签,来指导(或者说监督)整个学习过程。通常来说,完整的分类过程由两步组成:(1)对于有类别标签数据的学习,以及(2)对未知类别标签数据的预测。根据对训练集的使用方式,有监督学习一般分为两大类:模板匹配法和判别函数法。判别函数法依据判别函数的不同,又可以进一步分为概率统计分类法、线性分类法和非线性分类法。

(一)模版匹配法

将待分类的样本和标准模板进行比较,看与哪个模版匹配程度更相似,从而确定待分类样本的类别,这就是模版匹配的主要思想。比如K近邻算法,算法的思想为:对于一个待分类的样本,首先计算它与训练集中所有样本的距离,并以距离从小到大的顺序选出从空间上最靠近待分类样本的K个训练样本,最后依据这K个样本中出现频率最高的类别作为该待分类样本的类别。再比如,在模式识别应用中,经常会在后台数据库中保存一定量的模版,通过寻找与待分类样本差异最小的模版,来确定待分类样本的类别。模版匹配法思想较为简单,实现起来非常容易,特别是K近邻算法,经常应用于在线算法(要求算法效率非常高)的分类算法部分。但是模版匹配算法有一个明显的缺点就是当存储的训练模版非常大时,算法的存储和计算将成为算法提高效率的瓶颈。

(二)概率统计分类法

基于概率统计的方法主要指基于Bayes决策理论的分类算法。算法的核心思想就是依据Bayes后验概率公式,计算出待分类样本属于每一种类别的可能性,并找出最有可能的类别判为待分类样本的预测类别。

任何决策都有误判的情况,Bayes决策也不例外,如何做出最合理的判决,常常与具体问题结合。其中最具有代表性的是基于最小错误率的Bayes决策以及基于最小风险的Bayes决策。本节将首先介绍Bayes决策理论。

1.Bayes决策理论。

Bayes理论基于样本中每个类别的先验概率P(Ci)以及每个类的条件概率密度P(X|Ci)的统计,利用Bayes公式(式2-6)计算待分类样本分属各类别的概率(后验概率),依据X属于哪个类别具有最高的概率,就把X划分到哪个类。

(2-6)

公式中,先验概率P(X)针对某个类别出现的概率而言,可以通过统计训练集中每个类别所占比例计算;类条件概率密度P(X|Ci)是指在某类别空间中,出现特征向量X的概率,具体应用中一般假设P(X|Ci)服从正态分布,亦即满足式2-7,其中u为均值向量; 的协方差矩阵。

(2-7)

2.最小错误率的Bayes决策。

由Bayes公式可以看出,后验概率的大小只于先验概率和类条件概率密度的乘积P(X|Ci)P(Ci)有关。对于每次分类,总错误率为当X划分为某一类时,出错的可能性的总和。

对于两类问题,若P(X|+)P(+)>P(X|-)P(-),亦即P(+|X)>P(-|X),可以知道,将X分为“+”类的总错误率(1-P(X|+)P(+))将小于将X分为“-”类的总出错率(1-P(X|-)P(-))。对于多类的问题,依据同样的道理,可以证明将X分为使P(Ci|X)最高的类别,可以保证决策具有最小的错误率。

3.最小风险的Bayes决策。

现实生活中,不一定总错误率越小就代表决策越好,比如药厂判别药品质量,若将正常药品判别为劣质药品,造成的损失远小过将劣质药品判为正常药品的代价。此时需要对每种错误赋予一个风险权值,用以评价做出某种决策风险的大小。

对于某一观测值X,当将其分为Ci类时,总风险可以表示为:

(2-8)

式中,λij表示待分类样本X实际属于Cj但将其错误分为Ci所带来的损失。对于X,当计算出每个类别的风险函数后,选择具有最小风险的类别作为X的分类类别。

相对于最小错误率的Bayes决策,最小风险的Bayes决策具有更广泛的适应面,但是风险权值λij的制定相对较为复杂,需要根据具体问题,权衡各种损失的大小。

4.基于概率统计分类法的其他问题。

在实际应用中,类条件概率密度P(X|Ci)并不一定确切知道,潜在的值必须从可用的数据中估计。有时可能知道概率密度的类型(如高斯分布,t分布等),但不知道具体参数,此时一般采取最大似然估计或者最大后验概率来估计;另一方面有时可能知道一些估计的参数,比如均值和方差,但是却不知道具体的分布类型,此时可以采取最大熵估计或者采用著名的EM算法(期望最大算法)来估计类条件概率密度。

(三)线性分类法

Bayes决策分类有其不足的地方,其分类过程依赖于统计,因此更多适应于有统计知识的场合,也就是说服从一定分布的分类问题,但是现实中还有很多问题并不能满足这个要求,分类问题的研究进而转向如何采用非统计的方法来进行分类。

任何一个样本点都可以表示成特征空间的一个点,任何不相同的两个点之间都有一定距离,如果能够找到一个面(线性或者非线性)将属于不同类别的样本隔开,则表示这个面的函数就可以作为分类的依据。这就是几何分类法的思想,可以简单理解为利用几何方法把特征空间分解为不同类别的子空间。有时为了更好的找划分空间的函数,常常会利用映射、投影等方法对特征空间进行转化。

依据划分子空间的面是否为平面,即决策函数是否为线性,可以将几何分类方法分为两类:线性分类法以及非线性分类法。

线性分类就是通过一个或者多个超平面,将特征空间按类别划分为独立子空间。用来表示超平面的决策函数可以表示为g(X)=WTX+W0,其中W表示权值向量,W0被称为偏置(bias)。从图像上来理解,g(X)表示图2-1中的斜线。对于g(X)>0的点,即图中斜线右边的点,被划分为正类;相反地,途中斜线左边的点,被划分为负类。

从系统实现角度来看,一个线性分类器可以表示成一个具有d个输入单元,每个单元与结果具有连接权值的一个模型(图2-2)。每个输入特征向量乘以相应的权值,并输出这些乘积的累加和。利用一个Sigmoid函数(图中的output unit函数),将结果映射到{0,1}或者{-1,1}。

1.线性判别函数的形式。

对于二类问题,直接用g(X)=WTX+w0形成划分平面,平面两侧各属于一类,如图2-1中的例子。

对于多类别问题,情况比较复杂,通常有以下两种策略。

假设拥有d个类别的问题:

(1)如果对于任何一个类别Ci,利用g(X)=WTX+w0能够区分属于Ci以及不属于Ci的样本,此时分类的函数就是由每个类别的判别函数组成。此时分类函数总共有d个。若待分类样本满足gi(X)>0,则将其分到Ci类。若同时有多个类别使得X满足gi(X)>0,则选取具有最大函数值的类别作为X的类别。

(2)如果任两个类别Ci、Cj,可以通过gij(X)=WijTX+wij0区分开,则此时分类函数总共有d(d-1)/2个。对于任意的Cj,若待分类样本满足gij(X)>0恒成立,则将其划分为Ci类。

2.线性判别函数系数的确定。

线性判别函数设计的关键问题是权值的确定,也即使判别函数系数的确定。依据一定的评价准则,线性判别函数不断修正权值的大小,从而达到满足评价准则的系数值。

最常见的确定线性判别函数的算法包括感知器算法、最小二乘法(LSM)以及支持向量机。

(1)感知器算法:感知器算法的原理是每次依据分错的样本(用Y(W)表示),依据式2-8,不断的调整权值。感知器算法实际上就是单层神经网络,通过训练样本的不断指导,不断的修正自己的权值。实际上分错的样本越少,则g(X)距离真实的判别边界越近。

(2-9)

(2)最小二乘法:在某些情况下,尽管线性分类器不是最优的,但其效率和简单常常可以弥补这些问题。因此需要利用最优化的数学方法,计算较优的性能。最小二乘法正是最优化算法在线性分类器中的应用。利用最小二乘的结论公式:W=(XTX)-1XTy,利用矩阵计算的方法解出相应的权值,并使得训练集样本距离超平面的均方和最小。

(3)支持向量机:感知器算法可能会收敛到不同的解,但对于要求严格的问题中,一个给两测类别留了更多可自由活动的空间的决策函数显然产生错误的危险更小。支持向量机理论提供了求出这样平面的方法,通过解决优化问题:

(2-10)

使得超平面两侧拥有最大的间隔。其中满足|WTX+w0|=1的向量叫做支持向量。

(四)非线性分类法

线性分类器具有简单、直观的特点,但是在现实生活中会经常遇到线性不可分的情况,比如最著名的异或(XOR)布尔函数,就无法用一个平面将两各类别分开。最常见的非线性分类的方法有神经网络、多项式分类器以及决策树分类器。

1.神经网络。

一个简单的神经网络由三部分组成:输入层(input)、隐含层(hidden)以及输出层(output),如图2-3。

作为一个可以适应复杂问题的启发式的统计模式识别技术,神经网络具有强大的功能,戈尔莫戈罗夫证明只要给出足够数量的隐含层的神经单元、适当的非线性函数以及权值,任何判决都可以利用三层神经网络来实现。一个常见的神经网络的算法就是利用反向传播算法。限于篇幅,这里只介绍算法的核心思想。

反向传播算法的基本思想主要分为三步:

第一步,初始化所有权值。

第二步,前向计算:从输入层开始,从前往后地依次计算每个神经元的输出,计算方式为带限界的加权和。

第三步,后向计算与权值修正:依据输出的结果,从输出曾开始从后往前地依次计算出来权值修正的大小,并对全部权值进行修正。

反向传播算法可以对空间进行较为复杂的划分,并且可以充分利用并行的高性能计算来完成分类的工作。但是人工神经网络需要较大的训练集来保证结果的正确性。

2.多项式分类器。

对于一个多项式分类器,其核心思想就是进行样本空间的转化,将其转化为线性分类器问题。比如针对XOR问题,原特征空间可以表示为X=[x1,x2],若引入新的特征空间,令X’=[x1,x2,x1x2]=[y1,y2,y3],则完成了从二维空间到三维空间的转化。而对于新的空间,可以建立超平面g(x)=y1+y2-2y3-1/4正确区分两个类别。

然而多项式分类器适用于低维空间的非线性分类问题,对于维度较大的问题,由于产生的新特征空间将过于庞大,增加了计算的复杂性。

3.决策树。

决策树算法的核心思想就是利用一系列的查询来逐步地确定类别,图2-4展现了一个判断水果类型的决策树。

建立一棵决策树的过程可以看作是从不同的属性空间,层次性的分开各个类别的数据。建立的过程如下:

(1)首先,选择一个属性,对训练集进行划分。

(2)其次,对划分的每一个子训练集,判断是否满足停止准则,比如限制树的高度,确定根结点的纯度等。

(3)最后,如果有子训练集不满足停止条件,算法将对该子训练集重复这三个步骤,直到所有的训练子集都满足。

决策树使用比较简单,进行规则的匹配和查询就可以了,而且结果非常直观。但是对于算法实现的细节,比如停止准则的确定,进行划分的特征的选择等会影响分类的结果。限于篇幅,这里就不一一介绍。

四、半监督学习

区别于有监督学习要求训练集具有完整的类别标签,半监督学习只需要小部分训练样本具有类别标签,甚至可以通过向外部的指示器(Oracle)交互式地获得部分样本的标签。

同时区别于无监督学习,不要求训练集具有类别标签,只是通过研究样本属性之间的相似度进行学习,半监督学习通常依靠部分有标签的样本进行指导,还可以有效地提高聚类的效果。

通常半监督学习被认为是分类问题的特殊形式,因为半监督学习多关注与如何有效地利用无类别标签数据来提高分类器的性能。但是半监督学习的研究仍然涉及到聚类、回归等方面。

最常见的半监督学习方法是产生式模型方法(Generative Models),通常来说数据的分布可以描述为P(X,y)=P(X|y)P(y),该方法假设P(X|y)服从特定的混合分布模型(比如高斯混合分布模型)。通过大量的无标签样本,确定组成该混合模型的各个组成部分的参数,利用有标签样本的信息,来进一步确定样本的分布。针对产生式模型的研究,在理论方面集中在以下两个方面:

1.混合模型可识别性研究:给定某一参数向量,能否可以确定唯一的多分布混合的方式。可以知道的是高斯分布的混合模型是可识别的;与此同时,文献‎[11]证明Bernoulli混合模型是不可识别的;文献‎[12]在混合模型可识别性方面做了进一步的研究。

2.模型正确性研究:如果对于模型的假设是正确的,可以证明,通过充分学习无标签的样本有助于提升分类的精度;但是如果模型估计错误,无标签样本不会对模型精度带来提升,甚至导致精度下降。通常会利用组合算法或者样本降权‎的策略来减少模型选择错误带来的风险。在应用方面,常见的方法包括利用EM算法辨别混合组件、利用聚类算法划分样本空间并利用有标签的数据标记各子空间的标签;应用领域主要包括文本分类、文字对齐、人脸识别等。

自主训练方法(Self-training)是半监督学习最早的研究方向之一。该方法使用一个有监督学习算法从一小批有标签样本开始学习,迭代地给无标签样本赋予标签,并加入到训练样本中来。这种思想最早可以追溯到1965年。由于是一种包裹式算法,算法的性能更多依赖于所选择的有监督学习算法的性能。自主学习方法被用于多种自然语言处理任务中,比如语义歧义的识别甚至是情感识别;同时Rosenberg等人还将自主学习应用到图像对象识别系统中。

协同训练(Co-training)最初是Blum和Mitchel针对诸如网页分类等具有两个充分冗余的视图的半监督学习问题提出来的半监督学习算法。最初假设样本包含两个充分冗余的视图,由于这一要求在实际应用中往往无法满足,Nigam和Ghani在文献‎[24]中通过实验证明,在属性集充分大时,可以随机把属性集划分为两个视图,同样可以取得不错的效果。由于充分大属性集要求过于严格,随机划分属性集的效果不是非常稳定,因此,许多研究者试图寻找不需要充分冗余视图的协同算法。Goldman和Zhou在文献‎[25]的研究建立在噪声学习理论和统计技术之上,利用不同决策树分类器划分样本空间为若干等价类。每个分类器不断从样例空间的等价类内找出最置信的一批样本给予标签,提交给另一个分类器作为训练样本。他们在文献‎[3]中进行了扩展,使该算法可以使用多个不同类型分类器。为了进一步放松约束条件,周志华等人提出了Tri-training算法。该算法首先使用重复取样的方法训练三个分类器,然后不断的利用其中两个分类器,共同选出高置信的无标签的样本进行标记,来更新第三个模型。对比Goldman的方法,Tri-training算法显著减少了大量耗时的统计测试技术。为进一步减少噪声的影响,李明等人又在Tri-training的基础上提出了Co-forest方法,可以更好地发挥协同学习的作用。

直推式支持向量机(Transductive Support Vector Machines,TSVM)又被叫做半监督支持向量机(Semi-Supervised Support Vector Machines,S3VM)目的是利用支持向量机技术,将决策边界建立在远离高密度区的空间区域,来建立P(X)与决策边界的联系。由于寻找准确的直推式支持向量机的解是NP难问题,许多算法都主要用于发掘近似解。其他类似的避免高密度区域进行判别的算法还包括基于高斯过程的方法(如文献‎[18]),以及基于信息论的方法(如文献‎[19])。

基于图的半监督方法(Graph-based semi-supervised methods)通常将数据集描述为一张图,图中的结点为数据集中的样本(有标签或者无标签的),结点之间的连线通常定义为样本之间的相似度。图方法通常利用矩阵理论或者图算法,来寻找平滑的函数能够最大程度上匹配有标签样本的分布。图的半监督学习算法的关键在于建图、以及损失函数的确定。

除了半监督分类算法,其他半监督算法还包括谱聚类(Spectral Clustering),半监督聚类(Semi-supervised Clustering)‎,半监督回归(Semi-supervised Regression),主动学习(Active Learning),多示例学习(Multi-Instance Learning)等。

五、迁移学习

与半监督学习类似的,迁移学习的提出也是针对训练样本不足的分类情况。但是半监督学习依靠具有独立同分布的训练样本和待分类样本,而迁移学习则通过借助其他领域的训练样本来建立分类器,为本领域的待分类样本进行类别标签预测。

传统的学习方法通常依赖各自领域的训练样本,建立本领域的知识模型来进行领域内的学习任务,如图2-5(a)。但是迁移学习的训练样本来自其他领域(比如有类别标签样本较为丰富的领域),通过该领域样本的学习,抽取出来相关的知识用于本领域的分类任务,如图2-5(b)。但是与传统学习方式相同的是,迁移学习的目标也是分类的经验风险最小化,只是优化经验风险时会利用到源领域的知识。

迁移学习依赖于源领域的知识和目标领域知识分布相似,如果两者的分布不一致,往往会引起分类性能的下降,这种现象叫做负迁移。负迁移成为使用迁移学习的最大风险,为了保证迁移学习的效果,如何降低负迁移成为迁移学习关注的一个领域。

依据有类别标签的样本存在的学习领域,文献‎[8]将迁移学习领域分为两类:归纳式迁移学习(Inductive Transfer Learning)和直推式迁移学习(Transductive Transfer Learning)。

(一)归纳式迁移学习

归纳式迁移学习的假设为目标领域包含有部分的带有类别标签的样本。因此该领域的研究重点在于如何迁移其他领域的知识,以更好的利用目标领域中带有类别标签的样本。依据迁移的手段可以分为:

1.样本迁移:归纳式迁移学习的样本迁移方法假设目标领域和源领域使用相同的特征空间和标签集合,通过调整权值和重采样技术,实现源领域部分样本的重用。因此,此方式的核心思想是利用目标领域内的带有类别标签的样本指导从源领域进行采样,使得训练样本在分布上与目标领域近似。

以Tradaboost‎[9]为例,训练的数据来自于源领域和目标领域,每次训练结束对训练结果进行评价。对于目标领域,类似于Adaboost方法提升被分错的样本的权值;而对源领域,则降低被分错样本的权值。下一轮训练则利用调整后的样本权值进行重采样。最后依据分类的置信度输出判定的类别标签。

2.代表特征迁移:归纳式迁移学习的代表特征迁移方式假设源领域和目标领域由于任务的相关性,会共享某些特征。该方法的核心思想为通过空间映射方法(比如特征选择,特征变换,核空间等)提升目标领域和源领域在特征领域的相似性,同时增强样本的类别可区分性。利用优化技术,使得目标领域映射、源领域映射、参数矩阵三个角度都达到优化。

3.模型迁移:归纳式迁移学习的模型迁移方式假设由于各个领域之间的任务具有一定相关性,在一定程度上可以共享相互之间模型的参数。学习算法通过改变各个领域学习目标函数,使得各目标函数在形式上类似,甚至具有相同的重要参数,这时通过共享相同模型参数,实现目标领域的学习的优化。

4.关系知识迁移:归纳式迁移学习的关系知识迁移方法假设目标领域和源领域在样本关系方面具有相似性。该方法首先学习源领域的关系知识,比如学生和导师以及文章三者关系;其次,建立源领域相关对象与目标领域相关对象之间映射关系,比如源领域的学生、导师和文章分别对应目标领域的演员、导演和电影;最后,将从源领域的关系知识直接或者经过变换迁移到目标领域。

该种方法具有一定的针对性,一般用于具有样本相关性的模型中,通过迁移关系知识,提升目标领域的关系模型建立的效率和性能。

(二)直推式迁移学习

直推式迁移学习的假设为目标领域中不包含任何具有类别标签的样本。类似与归纳式迁移学习,直推式迁移学习也包含样本空间和特征空间两个研究的角度。

1.样本迁移:由于目标领域不包含带有类别标签的样本,因此样本迁移方法是依据源领域和目标领域在分布上的差异,给源领域的样本赋予不同的权值,尽可能接近目标领域的分布。特别地,一些基于采样的直推式迁移学习方法假设目标领域和源领域具有相同的后验概率,通过重采样方法生成新的训练集。

2.代表特征迁移:直推式迁移学习中的代表特征迁移方法依然假设目标领域和源领域具有相同的后验概率。该方法的核心思想是通过找到一组特征能够减少目标领域和源领域之间的距离。

直推式的代表特征迁移往往只是针对特定的问题。比如具有相同词典的文本挖掘,文本的属性向量相同或者类似,并以词典分布作为依据,通过协同聚类方式迁移类别标签。

(三)迁移学习相关问题

依据文献‎[8],依据目标领域是否具有带有类别标签的样本,迁移学习可以分为归纳式迁移学习(Inductive Transfer Learning)和直推式迁移学习(Transductive Transfer Learning)两个方向。而根据源领域是否具有类别标签样本,以及目标领域和源领域学习任务的相似性,迁移学习还涉及到以下几类学习问题:

自助学习(Self-taught Learning):该问题假设目标领域和源属于不同的分布,而且类别标签集也不相同;特别地,源领域有类别标签的样本较少。该方法通过找出共同的属性集合,来实现目标领域的学习。比如图像识别里面,各个识别任务可能不一样,例如识别动物和识别风景。但通过聚类发现识别动物时依据对象边缘的特征,可以有效地区分不同的动物;将该特征可以迁移到对不同风景的识别中。因此自助学习常常使用协同聚类方法找出可以迁移的特征基。

其他相关的研究方向还有:多任务学习(Multi-task Learning)、无监督迁移学习(Unsupervised Transfer Learning)、领域自适应学习(Domain Adaptation)以及样本选择偏差/方差迁移(Sample Selection Bias/Covariance Shift)等。在此不一一介绍。相关领域关系如图2-6所示。

六、总结

本章从学习角度介绍了数据挖掘领域常见的四类算法。有监督学习和无监督学习是数据挖掘传统的学习方法,依据样本是否使用了外在的类别标签作为指导,分别应用于不同的任务场景。由于现实生活中有类别标签的数据往往较少或者获取难度较大,近年来提出了包括半监督学习以及迁移学习等方法,利用无类别标签样本或者类似学习任务来提升有监督学习的效果和性能。

有监督学习、半监督学习、迁移学习主要的目的是为了提高分类任务的性能,图2-7通过犀牛和大象的图片分类任务来形象的区分了三者的核心思想。有监督学习,如图2-7(a),通过学习具有类别标签的大象和犀牛的图片建立学习模型;半监督学习,如图2-7(b),利用具有类别标签的两中动物的图片以及不具备类别标签的两种动物的图片建立学习模型;迁移学习,如图2-7(c),通过学习羊与马的图片,建立源领域模型,并迁移到目标领域大象和犀牛的学习问题中。

参考文献:

[1]Chapelle O,SchÄolkopf B,Zien A. Semi-Supervised Learning.MIT Press,Cambridge.MA,2006

[2]Rosenberg C,Hebert M,Schneiderman H.Semi-supervised self-training of object detection models.in Seventh IEEE Workshop on Applications of Computer Vision,2005

[3]Zhou Y,Goldman S.Democratic co-learning.in Proceedings of the 16th IEEE International Conference on Tools with Artificial Intelligence(ICTAI 2004),2004

[4]Bennett K,Demiriz A. Semi-supervised support vector machines.Advances in Neural Information Processing Systems,1999

[5]Zhu X.Semi-supervised learning with graphs.Ph.D.thesis.Carnegie Mellon University,2005

[6]Zhou Z,Xu J.On the relation between multi-instance learning and semi-supervised learning.in Proceedings of the 24th International Conference on Machine Learning,2007

[7]Duda R,Hart P,Stock D.模式分类(原书第二版).李宏东,姚天翔

[8]Pan J and Yang Q. A Survey on Transfer puter Sciences Technical Report HKUST-CS08-08,2008

[9]Dai W,Yang Q,Xue G,and Yu Y.Boosting for transfer learning.In Proceedings of the 24th International Conference on Machine Learning,2007

[10]Raina R,Battle A,Lee H,etc.Self-taught Learning:Transfer Learning from Unlabeled Data.Proceedings of the 24th International Conference on Machine Learning,2007

[11]McCallum A,Nigam K.A comparison of event models for naive bayes text classification.in AAAI-98 Workshop on Learning for Text Categorization,1998

[12]Corduneanu A,Jaakkola T. Using unlabeled data to improve text classification.Tech.Report AIM-2001-030.MIT AI Memo,2001

[13]Castelli V,Cover T.The relative value of labeled and unlabeled samples in pattern recognition with an unknown mixing parameter.in IEEE Transactions on Information Theory,1996

[14]Nigam K,McCallum A,Thrun S,Mitchell T.Text classification from labeled and unlabeled documents using em.in Machine Learning,2000

[15]Dara R,Kremer S,Stacey D.Clustering unlabeled data with soms improves classification of labeled real-world data. in World Congress on Computational Intelligence(WCCI),2002

[16]Culp M.An iterative algorithm for extending learners to a semi-supervised setting.in The 2007 Joint Statistical Meetings(JSM),2007

[17]Zhou Z,Li M.Tri-training:exploiting unlabeled data using three classifiers. in IEEE Transactions on Knowledge and Data Engineering,2005

[18]Zhu X,Lafferty J,Ghahramani Z.Semi-supervised learning: From gaussian fields to gaussian processes.Tech.Rep.CMU-CS-03-175,Carnegie Mellon University,2003

[19]Szummer M,Jaakkola T.Information regularization with partially labeled data.in Advances in Neural Information Processing Systems,2002

[20]Grira N,Crucianu M,Boujemaa N. Unsupervised and semi-supervised clustering:a brief survey.Tech.Rep.FP6.A Review of Machine Learning Techniques for Processing Multimedia Content,2004

[21]Zhou Z,Li M.Semi-supervised regression with co-training.in International Joint Conference on Artificial Intelligence(IJCAI),2005

[22]McCallum A,Nigam K.Employing em in pool-based active learning for text classification.in Proceedings of the 15th International Conference on Machine Learning,1998

[23]Blum A,Mitchell bining labeled and unlabeled data with co-training.In Proceedings of the Workshop on Computational Learning Theory (COLT),1998

[24]Nigam K,Ghani R.Analyzing the effectiveness and applicability of co-training.in Proceedings of the 9th ACM International Conference on Information and Knowledge Management(CIKM'00),2000

[25]Goldman S,Zhou Y. Enhancing supervised learning with unlabeled data.in Proceeding of the 17th International Conference on Machine Learning(ICML'00),2000

[26]Zhou Z,Li M.Tri-training: exploiting unlabeled data using three classifiers. in IEEE Transactions on Knowledge and Data Engineering,2005

相关热门标签