前言:一篇好文章的诞生,需要你不断地搜集资料、整理思路,本站小编为你收集了丰富的聚类分析论文主题范文,仅供参考,欢迎阅读并收藏。
1.芭蕾是一种形式感很强的舞台表演艺术
芭蕾是一种形式感很强的舞台表演艺术。即使不特别熟悉这一艺术样式的观众,也知道它是“足尖上的舞蹈”,知道它那挺拔、修长的“Arabesque”,知道它那“天鹅般”静穆与典雅的舞风。事实上,“形式感”很强的芭蕾,积淀的是包括基督精神、哥特式审美和绅士风度等在内的西方文化精神。根据文化传播学的原理,某一文化形态在播迁异域后,反倒比其原生地的母体更固守形态的原发性和纯粹性。尽管芭蕾的形式在中国大众的接受境遇中已与原有的文化精神相剥离,但要在这种抽象的几何形态中注人中国文化精神也并非易事。更何况“大红灯笼”所面对的是《妻妾成群》这样的文化旧俗和社会陋习。张艺谋高挂芭蕾“大红灯笼”的初衷,可能是灯笼的象征、京剧的意味以及传统中国的文化色彩,但他不能不首先对原著的叙述焦点及焦点人物作颠覆性的处理,否则他将被芭蕾的“形式感”所颠覆。非常看重“形式”在艺术表现中的重要作用的张艺谋,不可能置芭蕾艺术的“形式感”不顾而为所欲为。
2.按照舞剧叙述的特性升华原著的主题
据称芭蕾舞剧《大红灯笼高高挂》改编自张艺谋的同名电影,但张艺谋的电影则是改编自苏童不同名的小说《妻妾成群》。我并不认为张艺谋电影的选材是迎合西方世界期待的中国“民族性”,从小说《妻妾成群》更名为电影《大红灯笼高高挂》来看,毋宁说是张艺谋更看重选材中“镜头语言”的艺术张力及其文化内涵。将《妻妾成群》的直描隐匿在“大红灯笼”的暗喻之后,是电影叙述中“镜头语言”的特性所决定的;电影无需改变原著的叙述焦点和焦点人物,因为在“大红灯笼”高挂的镜头下,仍然是老爷的眠花宿柳和妻妾的争风吃醋。但显然,芭蕾“形式感”所决定的“舞剧叙述”拒绝老爷成为“男首席”。这一方面是由于芭蕾“男首席”体态语言的美学规范拒绝“老爷”的委琐和阴毒,另一方面也是由于老爷“成群的妻妾”使“女首席”难以抉择。于是,芭蕾舞剧“大红灯笼”将“男首席”聚集于那位与三太太“”的戏班武生,三太太也就顺理成章地成了“女首席”;又于是,男、女首席的“”事件沿着自身的叙述逻辑展开,它不是“妻妾成群”中的“世态百象”,而是其原有的“纯情”之恋的“一以贯之”。于是,芭蕾舞剧《大红灯笼高高挂》叙述的主线,体现为三太太的与其恋人——戏班武生的四段双人舞:序幕中三太太被迫出嫁时忆及旧时恋人的“纯情”双人舞;三幕中戏班武生唱堂会时相逢三太太的“倾情”双人舞;三幕中三太太不顾家法、以身相许旧时恋人的“”双人舞;尾声中戏班武生与三太太被老爷杖刑夺去年轻生命的“殉情”双人舞……在我看来,舞剧的叙述特性首先体现为按男、女首席舞者的命运来设定情节,尽管“大红灯笼”还不可能完全摆脱原著情节的构成框架,但原著的情节框架已拉开成背景,原著的主题也由于焦点人物的转换而得以升华。值得注意的是,在这种叙述特性的观照下,二太太从告密以邀宠到点灯而遭难的线索难免给人以枝蔓横生之感。
〔关键词〕移动图书馆;热点;共词分析;因子分析;聚类分析;多维尺度分析
DOI:10.3969/j.issn.1008-0821.2014.07.008
〔中图分类号〕G2501〔文献标识码〕A〔文章编号〕1008-0821(2014)07-0040-05
移动图书馆(Mobile library)原指“汽车图书馆”,是一种以大型交通工具作为空间载体,内置书架及各种图书报刊,通过位置移动的方式供不同地方读者取阅的图书馆。随着移动互联网技术、移动通信技术以及智能终端的快速发展,移动图书馆具有了新的内涵,如今主要是指利用各种智能终端,不受时间和空间限制,以无线接入方式访问图书馆资源的一种新型服务方式。移动图书馆方便、高效、快捷的服务方式迎合了现代人们的信息需求特点,因此,移动图书馆的研究受到了国内外学术界的普遍重视,现已成为国内外图书情报领域的一个研究热点。我国于2000年正式启动移动图书馆建设,经过十多年的发展,我国在移动图书馆理论与实践研究领域已取得了丰硕的成果。
笔者以CNKI数据库中的相关期刊论文为研究基础,采用共词分析方法,借助中国医科大学医学信息学系开发的书目共现分析Bicomb软件确定高频关键词和高频关键词共词矩阵,用SPSS190软件进行因子分析、聚类分析以及多维尺度分析,从而在此基础上揭示我国移动图书馆研究领域的热点和现状。
1关于共词分析方法
共词分析方法是一种基于内容分析的方法,是法国文献计量学家于20世纪70年代中后期基于引文耦合与共被引概念提出的。其基本原理主要是通过分析某一学科领域文献集中的词汇对或名词短语共同出现的情况,来判断该学科领域文献各主题之间的关系。笔者在研究过程中,主要是对移动图书馆文献集中的关键词进行共现统计,以此确定不同主题的相关关系,并且在运用共词分析方法分析我国移动图书馆研究热点时,主要遵循了以下几个步骤:①确定移动图书馆研究领域高频关键词;②利用Bicomb软件构建高频关键词共词矩阵;③利用SPSS190软件进行斯皮尔曼系数处理后得到相关矩阵进行因子分析;④用1减去相关矩阵中的所有数据的方法得到相异矩阵后利用SPSS190软件进行聚类分析;⑤利用SPSS190软件对已得到的相关矩阵进行多维尺度分析;⑥对所获得的信息结果进行分析。
2014年7月第34卷第7期现?代?情?报Journal of Modern InformationJuly,2014Vol34No72014年7月第34卷第7期我国移动图书馆研究热点分析July,2014Vol34No72数据来源与处理
在共词分析过程中,考虑到我国移动图书馆研究论文收录的全面性,2014年2月12日,笔者以CNKI全文数据库为数据来源进行检索,检索策略为“主题=移动图书馆”或者“主题=手机图书馆”,共检索到729篇文献,经过剔除不相关文献之后得到680篇文献,然后下载这些论文的题录,利用Bicomb软件的统计功能进行关键词统计,统计结果显示所有文献共含有2 466个关键词,从中选择出57个词频大于等于5的关键词作为共词分析的基础(见表1)。
3移动图书馆的共词分析
31因子分析
因子分析的主要思想是利用尽可能少的因子去描述众多指标或要素之间的联系,即将相关性较高的几个变量归为一组,在每一组变量中找出隐藏的具有代表性的因子成为一个公共因子,以较少的公共因子反映原始资料的大部分信息,最后使得同组内的变量之间具有较高的相关性,不同组的变量之间具有相对较低的相关性。
利用SPSS190分析中的斯皮尔曼系数将已生成的高频关键词共词矩阵转换成相关矩阵,并以此相关矩阵为基础,在SPSS190中选择主成份方法、协方差矩阵和最大方差旋转进行因子分析,得到相关矩阵的解释总方差(见表3)。
32聚类分析
聚类分析又称群集分析,是根据“物以类聚”的思想对事物的特性进行比较分类,将具有相近特性的事物归为一类,将具有特性差别较大的事物归入不同的类。
在聚类分析中,为消除共词频次差异的影响,需要将57*57的共词相关矩阵转化为相异矩阵,具体方法是用1减去相关矩阵中的所有数据的方法进行转化。然后利用SPSS190软件聚类分析中常用的系统聚类法对共词矩阵进行聚类,聚类时聚类方法选用Wards算法,聚类度量标准选择“计数”中的斐方(Phi square measure),转换值标准化选择Z得分。最后经过分析得到聚类树状结构图,通过这个树状图可以初步判断各关键词之间的亲疏关系,结合前面的因子分析结果,我国移动图书馆研究领域的聚类树状结构图可以确定为5个大类(见图1),进而可以为多维尺度分析的最终分组提供依据。
33多维尺度分析
多维尺度分析是研究对象之间相似性或差异性的一种多元统计分析方法,其基本原理是将研究对象从多维空间简化到低维空间进行定位、分析和归类,同时又保留对象间原始关系的数据分析方法[1]。
笔者以前面的相关矩阵为基础利用SPSS190软件进行多维尺度分析,结合因子分析和聚类分析的结果,绘制了具有5个类团的多维尺度分析图(见图2)。这5个类团分别代表的主题是:1移动图书馆服务模式;2移动技术在图书馆的应用;3移动图书馆系统设计分析及实现;4移动图书馆现状及发展趋势;5移动图书馆应用实例介绍。
5结语
本文以我国移动图书馆研究领域的高频关键词为基础,通过共词分析方法进行了因子分析、聚类分析和多维尺度分析,结果发现我国的研究学者对移动图书馆的研究主要集中在移动图书馆服务模式、移动技术在图书馆的应用、移动图书馆系统设计分析及实现、移动图书馆现状及发展趋势、移动图书馆应用实例介绍五个方面。尽管我国学者在移动图书馆研究领域取得了不错的研究成绩,但是从因子分析和聚类分析结果来看,我国移动图书馆的新兴主题研究不够,难以形成一类,如“个性化服务”、“移动阅读”等主题,由于研究涉猎不多,所发表的论文数量偏少,结果在共词分析中只能依附于其他相关主题。
值得注意的是本研究在研究过程中存在一定局限性,一是由于某些论文的关键词著录不规范,使得关键词数据还不够全面完善;二是移动图书馆的高频关键词的阀值选定是个值得商榷的事,到底选择多大阀值的关键词才能全面反映移动图书馆的整体状况仍是一个值得不断探索的事情,笔者将在未来的研究中不断地进行实践完善。
参考文献
[1]陆宇杰,张凤仙,范并思.基于共词分析的高校图书馆核心价值研究[J].大学图书馆学报,2011,(6):34-40.
[2]宋鸾姣,李利.面向智能手机的移动图书馆服务需求调查分析[J].图书馆,2012,(5):71-72.
[3]宋恩梅.移动的书海:国内移动图书馆现状及发展趋势[J].中国图书馆学报,2010,36(5):36-48.
[4]龙泉,谢春枝,申艳.国外高校移动图书馆应用现状调查及启示[J].图书馆论坛,2013,(5):60-64.
[5]潘志鹏.基于手机平台的图书馆延伸服务――以武汉图书馆手机服务为例[J].情报理论与实践,2011,(1):76-79.
[6]袁辉,杨新涯,王宁.移动图书馆的实践与展望──以重庆大学图书馆为例[J].图书馆建设,2011,(11):66-70.
[7]董伟.国内近十年数字图书馆领域研究热点分析――基于共词分析[J].图书情报知识,2009,(131):58-63.
房地产投资环境属于城市投资环境的子系统,纵观国内外学者建立的各种投资环境评价方法,现阶段用的比较多的方法有:灰色关联分析法(邓聚龙,1988),层次分析法(SAATYTL,1908),模糊评判法(CHUATW,1979),人工神经网络法(HECHT-NIELSENR,1987),物元分析法(蔡文,1994)以及投影寻踪法(FriedmanJH,TukeyJW,1974)等.其中灰色关联分析法、模糊评判法、物元分析法是主观分析方法,在此类方法的应用中主要由人为的根据经验确定各个指标的权重,因此其评价结果具有一定的人为随意性;人工神经网络方法能够消除评价过程中的人为随意性,但是其学习训练需要相当多的样本,况且还容易陷入局部极小点,因此不便于推广应用;投影寻踪方法能够将高维数据转变为低维数据,通过低维空间数据来分析高维空间数据,但是其中的密度半径窗口参数需要根据经验来确定,其评价结果仍然带有一定的主观性;当然也有一些经典的传统降维方法能够利用指标数据信息对投资环境做出较客观的评价,比如主成分分析法和因子分析法,但是此类方法是从众多指标中提取少量指标来反应样本信息,使得样本的信息损失量较大,同时对样本数据也有严格的要求.投影寻踪动态聚类模型依据动态聚类思想来构建投影指标,完全依靠样本数据自身特性根据投影指标来寻找投影向量,利用投影向量将高维样本数据投影到低维数据,然后通过研究处理低维数据达到研究高维数据目的,同时实现样本数据的排序和自动聚类分析.投影寻踪动态聚类模型已经在洪水灾害管理、气候分区和区域水安全评价等领域的多元数据分析中取得了一定的应用.本文将投影寻踪动态聚类模型应用到房地产投资环境评价中,以期为房地产投资环境评价提供更多的方法论。
2实例研究
为了验证投影寻踪动态聚类模型在房地产投资环境评价中的适用性,下文将进行实例研究.考虑指标数据的易获得性,以辽宁省工业地产的投资环境分析为例.张军涛和刘建国利用主成分分析法筛选了影响辽宁省主要城市投资环境评价的主要指标,之后利用聚类原理对数据进行了聚类分析;杨建喜和宋永发利用基于遗传算法的投影寻踪方法将高维数据降维到低维数据,然后利用雷达图对投影特征值进行聚类分析,研究了辽宁工业地产投资环境的排序.以上两篇论文中使用两类不同的方法得到了类似的排序和聚类结论.本文的研究以此为基础,通过投影寻踪动态聚类模型进行辽宁省工业地产投资环境评价,然后与文献的结论进行比较,以检验投影寻踪动态聚类模型的适用性.工业地产是区别于住宅地产,商业地产和综合用地以外的工业性质的房地产.影响工业地产投资环境评价的因素众多,参考文献从社会文化环境、基础设施环境、经济发展环境、工业发展环境4个方面选择36个指标对辽宁省14个地级市的工业地产投资环境进行分析评价。首先,确定辽宁省工业地产投资环境的分类数,这里参照文献的分类,将整个样本分为3类。同时得各个城市的投影特征值,投影特征值排序以及投影特征值聚类结果。最后,将本文的分析结果与文献的分析结果进行对比。所得排序和分类结果与用投影寻踪分析方法和用主成分分析方法基本一致,验证了本模型在房地产投资环境评价中的适用价值.但与文献中的基于遗传算法的投影寻踪算法相比:克服了需要根据经验来确定投影指标函数的密度窗口半径参数和对投影特征值要借助雷达图进行聚类再处理的过程;与文献的主成分分析方法相比:投影寻踪动态聚类模型能够更多的利用原始指标信息,使得出的结论可能更加客观可靠.同时投影寻踪动态聚类模型在对数据的排序过程中自动输出聚类结果,不需要再借助其他方法进行聚类分析.这具有文献中所用方法无法比拟的优势.在同一聚类数据中,个别数据的排序结果与文献中结论稍微不一致,这主要是由于在用遗传算法求解时每次生成的单位投影向量带有一定的随机性所致。
3结语
关键词: 居民出行特征; 数据挖掘; GPS轨迹数据; DBSCAN
中图分类号:TP29 文献标志码:A 文章编号:1006-8228(2017)05-37-03
Research on the characteristics of resident travel based on the taxi
GPS trajectory data mining
Lin Jiyan, Zhang Yaqiong, Zhang Hui
(School of Information Technology, Yulin University, Yulin, Shaanxi 719000, China)
Abstract: The analysis to the characteristics of urban residents travel is becoming increasingly important in urban traffic planning, and has become an important basis of urban road traffic construction. The urban taxi can well reflect the characteristics of residents travel because of its operational characteristics and rule. Therefore, in order to effectively solve the problem of city road congestion and provide the basis for city traffic planning, the paper presents the research on the characteristics of resident travel based on the taxi GPS trajectory data mining. The research uses DBSCAN algorithm to realize the clustering analysis of the historical GPS trajectory data, which can not only extract the temporal and spatial characteristics of urban resident travel, but also effectively reduce the taxi no-load rate.
Key words: resident travel characteristic; data mining; GPS trajectory data; DBSCAN
0 引言
在城市的上下班高峰期,道路矶率浅鞘薪煌ㄎ侍庵凶钗突出的难题,这跟城市居民出行行为密不可分,因为出行的居民是交通量的主要来源[1]。一个城市的交通系统状况跟城市居民的出行行为息息相关,居民的出行行为会对城市交通体系产生影响[2]。对居民出行特征进行研究是城市和交通规划、城市公共基础设施建设管理中的一个基础性任务,不仅可以用来对目前的交通出行情况进行评估,也可以用来对居民的出行需求进行预测,对实施合理有效的城市交通规划起着至关重要的作用[3]。
出租车因其灵活性和便利性,已日渐成为城市交通系统的重要组成部分,同时,因为它的起点和终点由乘客决定,且24小时不间断服务,所以,出租车的运营规律能够反映出乘客的出行特征[4]。由于装载在出租车上的GPS和通信设备以一定的频率向城市交通客运管理中心传送出租车的实时经纬度、运营状态、行驶方向、速度等信息,因此,管理中心会积累大量的出租车GPS轨迹数据[5],利用DBSCAN对这些进行数据进行聚类分析,可以在一定程度上挖掘乘客出行的时空特征,也能为出租车寻找最佳的载客区域提供依据,有效的降低出租车的空驶率。
1 GPS轨迹数据挖掘设计
1.1 数据预处理
本文选取榆阳区(地理坐标为东经108?58'-110?24',北纬37?49'-38?58'之间)作为研究区域,GPS轨迹数据使用榆阳区1100多辆出租车五天的运营数据,对数据进行预处理后,出租车轨迹数据由车牌ID tID、、当前位置loc、GPS时间ct、营运状态tsta、行驶方向tdir、GPS速度dspe等六个属性组成,部分属性值如表1所示。
表1中,营运状态的取值为0-3,其中0表示空载,1表示载客,2表示驻车,3表示停运;GPS方向的取值为000-360,以度为单位,即与北极方向的夹角,代表车辆的行驶方向。
1.2 利用DBSCAN算法进行聚类挖掘
居民的作息和社会活动有明显的时间规律,比如上下班高峰期的载客点分布情况和非高峰期的居民出行特征有可能完全不同,因此,可以先将GPS历史轨迹数据根据时间特征分类,再进行密度聚类分析,如此便可充分挖掘在不同时间段上居民出行特征的空间密度分布情况,给出租车提供更加合理的时空载客区域分布数据,有效地提高其巡游过程中的载客成功率。基于此,论文引入了DBBSCAN算法,该算法需要3个输入参数:历史轨迹数据对象D,空间半径ε,以及密度阈值MinPts;输出参数为聚类簇C,部分MATLAB代码如下:
data=importdata('data.xlsx');
data=data.data.Sheet1;
……
num=size(data,1);
k=floor(log(num))+1;
k=round(num/25)+1;
k_dist=zeros(num,1);
for i=1:num
temp=repmat(data(i,:),num,1);
gx0=temp(:,1); gy0=temp(:,2);
gx1=data(:,1);gy1=data(:,2);
dist0=sqrt((gx0-gx1).^2+(gy0-gy1).^2);
dist_s=sort(dist0);
k_dist(i)=dist_s(k);
end
x=1:num;
figure;plot(x,k_dist,'r-');
xlabel('?ù±?±à??');ylabel('k_{-}dist');title('k_{-}dist??');
……
x=[(1:m)' data];
[m,n]=size(x);
types=zeros(1,m);
dealed=zeros(m,1);
dis=calDistance(x(:,2:n));
number=1;
……
img=imread('map.jpg');
[Ny,Nx]=size(img);
……
figure;imagesc(x00,y00,img); colormap(gray); hold on;
for i=1:m
if class(i)==-1
plot(data(i,1),data(i,2),'.r');
else if class(i)==1
if types(i)==1
plot(data(i,1),data(i,2),'+b');
else
plot(data(i,1),data(i,2),'.b');
end
elseif class(i)==2
if types(i)==1
plot(data(i,1),data(i,2),'+g');
else
plot(data(i,1),data(i,2),'.g');
end
……
plot(x1,y1,'r*');
xlabel('度'); ylabel('纬度');
2 实验结果
聚类结果如图1和图2所示,出行热点区域在图中用圆圈标出。
以上的聚类结果显示,榆阳区的居民出行呈现一定空间和时间特征。工作日和非工作日出租车热点区域不同,且工作日的不同时间居民出行的特征不同;在工作日,出租车的载客热点数比非工作日多;而载客热点分布,工作日比非工作日分散。该聚类结果也可以给出租车司机提供历史载客热点序列,从一定程度上解决巡游方式的出租车空载率高的问题。
3 结束语
本文利用DBSCAN算法对出租车的历史GPS轨迹数据进行挖掘,从挖掘结果可以分析出居民出行的时空特征,从而用来对目前的交通出行情况进行评估,同时也可以用来对居民的出行需求进行预测;再者,可以根据挖掘结果给出租车司机提供历史载客热点序列,帮助出租车司机降低空驶率。本文仅针对工作日和周末特定时刻给出了聚类分析,没有详细地分析一天中不同时刻的居民出行特征,以后的工作中会继续研究和改进。
参考文献(References):
[1] 卫龙,高红梅.基于轨迹数据挖掘的居民出行特征研究进展[J].西部交通科技,2016.10:87-92
[2] 冯琦森.基于出租车轨迹的居民出行热点路径和区域挖掘[D].重庆大学,2016.
[3] 陈世莉,陶海燕,李旭亮,卓莉.基于潜在语义信息的城市功能区识别――广州市浮动车GPS时空数据挖掘[J].地理学报,2016.3:471-483
[4] 张俊涛,武芳,张浩.利用出租车轨迹数据挖掘城市居民出行特征[J].地理与地理信息科学,2015.6:104-108
[5] 张薇,林龙.基于数据挖掘的增城居民出行特征分析[J].科技和产业,2015.7:61-64
[6] 赵苗苗.基于出租车轨迹数据挖掘的推荐模型研究[D].首都经济贸易大学硕士学位论文,2015.
[7] 童晓君.基于出租车GPS数据的居民出行行为分析[D].中南大学硕士学位论文,2012.
[关键词]期刊共被引 对角线取值 聚类分析 核心-边缘结构分析
[分类号]G350
1 引 言
共被引分析方法是引文分析方法的一种,自从1973年分别由Small和I.V.Marshakova提出后,就备受研究者们关注。根据分析对象的不同,共被引分析方法主要分为文献共被引、作者共被引、期刊共被引和专利共被引等几种。
期刊共被引是以期刊为基本单元而建立的共被引关系。期刊共被引分析方法于1991年McCain首先引入并运用于期刊及学科领域的研究以来,理论与方法逐渐发展,运用领域也不断扩大。随着科学知识图谱、可视化技术、社会网络分析等逐渐成为科学计量学研究的热门,期刊共被引分析越来越成为人们关注的热点。
期刊共被引分析的步骤,学术界普遍采用1990年McCain对作者共被引技术总结的模式,其归纳为选择作者、检索共被引频次、生成共被引矩阵、转化为Pear.SOil相关系数矩阵、多元分析和解释结果等几个步骤。这几个步骤中,生成共被引矩阵是基础和关键的一步,后面的分析均基于该矩阵。
共被引矩阵是个对称矩阵,非对角线上元素表示两两之间共被引的次数(也称共被引强度),共被引强度越高,则说明关系越密切;然而,对共被引矩阵对角线取值的处理,学术界提出过多种观点,但至今没有统一的定论。由于不同的对角线取值,会造成期刊共被引分析结果的差异,因此有必要对期刊共被引矩阵对角线取值问题进行探究。
2 共被引矩阵对角线取值的几种方法
2.1 总被引次数
对角线上的数值采用文献总被引次数或作者总被引次数(包括了作者自引的次数),这是学者们对共被引分析对角线取值的最初思考。国内学术界一些早期的研究L2-3]即采用这种观点。这种做法,数据易取,容易操作。但其取值依据明显与共被引理论不一致,造成分析的结果失真严重。因而,用总被引次数填充共被引矩阵对角线的做法,逐渐被其他做法代替。
2.2排序前三的共被引频次之和的一半
White和Grififth最初是将对角线值定为:排序前三的共被引频次之和的一半。因为,一方面对角线上取作者总被引次数远远高出其他作者间的共被引次数,另一方面是作者同名造成的影响很大。
对角线取排序前三的共被引频次之和的一半,部分解决了失真和作者同名的问题,又可突出共被引分析中对角线上数值的相对重要性。这样做能解决对角线取总被引次数的一些问题,但此做法的合理性缺乏有效的证明。并且,现代检索技术的发展,同名的问题已基本得到解决。
2.3 缺失值
对角线上的取值直接采用默认的缺失值,是Mc.Cain提出的,这也是影响最广泛、目前最普遍的一种对角线确定方法。MeCain提出这种做法,也是为了解决对角线上采用总被引次数造成失真严重的问题,并通过作者共被引的实例证实缺失值的聚类、多维尺度、主成分分析的结果与White和Griffith采用排序前三的一半的做法,结果相差不大。
在聚类分析、多维尺度分析中,对角线值缺失的共被引矩阵需要将对角线默认为0,再转化成相关系数矩阵,这样相似矩阵对角线就自动变为1,这种取值方法解决了进一步多元分析中程序的限制问题。从表面看来,在处理数据方面非常方便,但忽略了研究对象的背景与含义。共被引矩阵是考察各对象之间亲疏关系的相似矩阵,撇开对象与自己的关系,孤立地分析对象与对象之间的亲疏关系,存在一定的不合理性。
2.4 最大值和最大值+1
White在文献[6]中,建议使用期刊被引频次的最大值作为对角线取值。他从Person相关系数矩阵测度相似性的角度出发,并通过实例,说明采用默认值的做法会使分析结果存在一定的人为特定目的。取最大值的做法,比起排序前三的一半的做法,更加凸显对角线的重要性,也方便操作。
我国学者邱均平从临近矩阵的角度出发,认为:按照共被引的假设――具有相同的共被引强度意味着具有相同的相似程度,期刊与自身的关系应为最亲近(相似),建议用最大值+1来凸显期刊与自身的亲密关系,并以编辑出版类期刊群和图书馆学情报学期刊群做了实证分析。
采用最大值或最大值+1的做法,从相似性的角度看,存在一定的合理性,而且数据易取,操作简单。但难于解释的一个问题是:为何取最大值或最大值+1,而不是最大值+2、最大值+N?理论依据是什么?另外,“期刊与自身的关系最亲近”这一假设同样存在一定的局限性。在文献(或专利)共被引中,共引意味着文献(或专利)相互引证,文献(或专利)主题存在相似性,共被引强度越大相似程度越大。但,在作者共被引或期刊共被引分析中,作者研究领域的改变、期刊办刊方向的变化等都会造成“期刊与自身关系最亲近”的假设不成立。
2.5期刊与自身的实际共被引次数
Ahlgren等认为,采用排序前三的共被引频次之和一半和缺失值的做法仅是采用总被引次数的替换。虽然能生成共被引矩阵,但并不是最好的做法。从共被引的原理和统计意义上,应该使用自己与自己实际共被引次数,这样产生的矩阵才是严格意义上的共被引矩阵。此结论是Ahlgren在探讨作者共被引分析时得出的,这种做法由于数据收集困难而很少被采用,更缺乏实证的验证。
通过以上分析,本文认为,针对作者、期刊、专利等不同分析对象的特点,对角线取值方式应该有所不同。从社会网络、共被引分析的原理和期刊动态变化的特点三个角度看,期刊共被引矩阵对角线取值采用期刊与自身的实际共被引次数最为合理。
首先,从社会网络的角度看,期刊共被引矩阵(网络)是典型的自反网络,即期刊与自身是有关系的;因此,在考察期刊群之间相互关系的过程中,不应该抛开期刊与自身的关系,应对其加以考虑。从这个意义上来说,对角线取缺失值的做法并不合理。
其次,期刊共被引关系把众多的期刊按被引证关系联系起来,从期刊所载论文被利用的角度揭示期刊之间的某种学科或专业上的联系。换言之,期刊共被引分析通过期刊所载文献之间的共被引关系揭示期刊的主题、地位上的密切关系,而期刊共被引矩阵是期刊之间密切关系的外在表现。采用自己与自己实际共被引次数作为矩阵对角线的值,形成严格意义上的共被引矩阵,更符合共被引原理。
第三,不同于耦合关系,共被引关系所反映的是变化的或暂时的关系,而且期刊共被引是对某一跨度时间内形成的共被引关系进行分析,因而有必要考虑期刊动态变化的特点。造成这种变化可能是期刊季
刊、双月刊、月刊、半月刊的改变,也存在期刊载文主题的变化。在这个意义上,“期刊自己与自己的关系最为密切”的假设并不一定成立,共被引矩阵对角线取最大值、最大值+1或其他远大于非对角线的做法的合理性值得商榷。而这几种对角线取值方式中,最能反映期刊动态变化的是实际共被引次数。
3 实证研究――以图书情报学期刊群为例
3.1 数据的收集和处理方法
前面提到,对角线上的数值采用文献总被引次数或作者总被引次数(包括了作者自引的次数)的做法,是共被引分析的最初做法,已逐渐被其他方法完全替代。这里不再对该种做法进行研究。其余几种对角线的处理方法,本文通过实例进行聚类分析和核心一边缘结构分析,对各种对角线取值方式得到的结果进行比较。
本文以文献[9]为基础,采用该文选取的期刊群及数据收集的时间段,同样以CNKI为信息源及相关的分析软件(sPSS及UCINET),并于2009年8月13日对文献[9]中期刊源(29种)的共被引数据进行检索整理,得到如表1所示的共被引矩阵①:
3.2 聚类分析和核心-边缘模型分析
共被引矩阵的不同会影响分析的结果,而造成共被引矩阵不同的原因是对角线的处理方法。以下是对几种对角线处理方法逐一进行聚类分析和核心一边缘模型分析。
3.2.1排序前三的共被引频次之和的一半 图1是采用该种对角线处理方法的聚类分析图。从聚类分析结果,我们可以清楚地看到,采用排序前三的共被引频次之和的一半的做法,将这29种期刊聚类成三大类:第一类包括《图书情报工作》、《中国图书馆学报》等21种(图1中a类)偏图书馆学领域的期刊和《情报理论与实践》、《情报学报》等5种(上图中b类)偏情报学领域的期刊;第二类为《农业图书情报学刊》和《情报探索》;第三类是《中华医学图书情报杂志》。这种对角线取值的方法,第一类包含了29种期刊中的26种,图书馆学领域期刊群和情报学领域期刊群聚成一个大类。
图1右边核心边缘结构分析,得到的结果显示数据和理想模型的相关系数能达到0.919。这里得到的期刊核心度数值与邱均平、李俊佩的文献《图书情报学期刊的同被引研究》存在不同,但期刊核心度排名基本一致。
3.2.2缺失值对角线默认缺失值是共被引分析最普遍的做法。图2是对角线取缺失值的期刊共被引聚类图和核心边缘结构分析图。聚类结果同样不精确,除《图书情报工作》、《情报理论与实践》与《情报学报》各聚成一类外,其余聚成一个大类。而核心边缘结构分析,得到的结果显示数据和理想模型的相关系数为0.889。
3.2.3 最大值和最大值+1最大值和最大值+1得到聚类分析和核心边缘分析结果几乎相同,如图3和
聚类分析将29种期刊大致分成四类:第一类包括22种期刊,这些期刊主要以图书馆学领域的文章为主;第二类是以情报学领域的文章为主的期刊,它们都是情报学期刊,并且技术方面的文章占的比例也相对较高;第三类《情报探索》单独成一类;第四类是《中华医学图书情报杂志》单独成一类。
核心边缘结构分析显示该取值方法与理想模型的相关系数为0.951。
3.2.4期刊与自身的实际共被引次数将期刊与自身的实际共被引次数作为共被引矩阵对角线数值得到的聚类见图5,分为四类:
・第一类是研究图书馆学主题为主的23种期刊,包括《图书情报工作》、《中国图书馆学报》等。这23种期刊又分成四个子类:a类全部都是图书馆学的核心期刊;b类包括各地图书馆学期刊,大多不是核心期刊;c类是以情报学为主题较多的期刊;d类是偏应用较多的期刊。
・第二类是主题以情报学为主的4种期刊:《情报理论与实践》、《情报学报》、《情报科学》和《现代图书情报技术》。
・第三类、第四类分别是独自成一类的《农业图书情报学刊》及《中华医学图书情报杂志》,这两种期刊都是以特定专业领域为主题的期刊。
将实际共被引次数作为共被引矩阵对角线数值,进行核心边缘结构分析,显示数据和理想模型的相关系数为0.962,优于其他取值方法得到的结果。
3.3对比分析
从聚类结果上看,上文中3.2.1、3.2.2聚类结果较为模糊,形成类别少,类内距离很大;3.2.3能聚成四类,但其第一类的组内距离很大;3.2.4最能满足层次聚类法“类内距离小,类间距离大”的条件,聚类结果更为良好。
和3.2.3比较,3.2.4除了聚类分类更详细更准确外,还有一个差别,即:《情报资料工作》期刊的归类不同:3.2.3将该刊物聚为情报学期刊子群,3.2.4则归为图书馆学期刊子群。为验证其归属,笔者对《情报资料工作》2002-2007年发表学术论文的关键词进行考察。考虑到关键词是表征论文内容的核心词汇,本文将从对关键词的统计对上述问题给出解释。统计结果显示,2002-2007各年间,《情报资料工作》刊载学术论文的前十位高频关键词(限于篇幅,具体数据略去,有需要可向作者索取),更多表征的是图书馆学的内容,特别需要一提的是除了2007年排名第二的高频关键词是“知识管理”,其余各年排名第一、第二的高频关键词表征的均是图书馆学的内容。这也从另一个侧面证明了《情报资料工作》归类于图书馆学期刊更为合理。
从核心一边缘结构分析结果来看,对角线取值的不同会影响期刊核心度,但对核心度排名的影响不大。就分析结果和理想模型的拟合系数来看,3.2.4能达到0.962,是这几种取值方法中最高的,这也从实证的角度证明对角线取值为“期刊与自身的实际共被引次数”更为合理。
4 结语
[关键词]机器学习;半监督学习;半监督聚类;文本聚类
中图分类号:TP31 文献标识码:A 文章编号:1009-914X(2016)29-0361-01
0 研究背景
数据库技术为存储海量数据信息提供了可能,但随着通信网、互联网的迅速发展和日益普及,信息量呈指数级别增长,由于信息产生的速度远远超过人们对信息的利用能力,使得人们在海量的信息面前无所适从,给使用者带来巨大的时间、资金和精力的浪费。因此,通过建立合适的学习系统,将信息分门别类才便于挖掘信息的内部规律,这些信息才可能为人类所利用。
在现实问题中通常存在大量无标记样本,但有标记样本则比较少,无标记样本的获也取相对容易,而获取有标记的样本则要困难得多。尤其是在一些在线应用中这一问题更加明显,从大量的在线文档中获取无类标记的新文章十分简单,如果建立一个分类器来把这些新文档分类到各个类中去,或者想要获得这些文档的类标记可能需要耗费大量的人力、物力和财力。显然,如果只使用少量的有标记样本,那么利用它们所训练出来的学习系统往往很难具有泛化能力,在某些特定的条件下同时使用标记样本和无标记样本的学习结果要优于仅仅使用少量已标记样本的学习结果。
1 研究现状
聚类技术已经在模式识别、图像处理、信息检索、商业数据分析等许多领域的应用中取得长足进展。在模式识别中,聚类分析被应用于语音识别、计算机视觉、字符识别、雷达信号识别、文本识别、气象数据分了、食品检验、水质分析、自动化过程控制和工具状态监测等方面。在图像处理中,聚类分析方法被应用于灰度图像的分割、彩色图像的分割、纹理图像的分割、图像边缘的检测、图像增强、恢复与压缩等方法;在商业领域,聚类分析常被应用用于客户群体分类、预测客户的消费模式和习惯等;文本聚类在信息检索领域有着广泛的应用,通过聚类发现数据空间分布特征,从而建立主题索引,帮助用户快速的找到所需信息。同时,聚类分析也用于个性化信息推荐系统。
2.基于标记样本和相似度矩阵调整的k-means算法
基于标记样本和相似度调整的k-means算法(LSKM)是根据半监督学习的聚类假设条件,结合了基于约束和距离测度两种思想的半监督聚类算法。为了读者更好地理解这个算法,本章首先阐述了文本处理技术、无监督学习的的理论基础半监督聚类算法和半监督聚类算法研究的一些相关问题,包括:样本间的距离学习、聚类算法的评价准则、k-means聚类的扩展算法等。
2.1 文本处理
文本是非结构化的数据,无法用数据挖掘的方法对文本直接进行处理,需要先对文本进行预处理,使文本最终表示成为一种结构化的计算机能够处理的形式。文本预处理是聚类分析中一个非常重要的环节,预处理的质量直接影响着聚类分析的性能。预处理包括:正文提取、去除停用词(stopwordremoval),提出词干(stemming),处理数字、连接词、标点以及字母大小写等预处理工作。如果处理中文还需要对文本分词。对于网页,还需要移除HTML标签和鉴定网页主要内容等。虽然经过预处理后的本文长度会有所降低,但此时的文本仍然是非结构化的数据。为了方便计算机处理,需要将这些文本转化成某种结构化的模式,这个转化的过程就是文本的表示和特征选择。这一节将对这两种技术进行简要的阐述。
2.2 聚类
将物理或抽象对象的集合分成相似的对象簇的过程称为聚类(Clustering),簇(cluster)是样本对象的集合,这些对象与同一个簇中的对象彼此相似,而与其它簇中的对象相异。一个样本对象簇可以整体看作一个组,因此可以看作一种数据压缩形式。尽管分类是一种识别对象组或类的有效手段,但是它常常需要高昂的代价收集和标记大量训练元组集或模式,以便分类算法使用它们对每个组建模。通常,人们更希望反方向处理:首先,基于样本的相似性把样本划分成组,然后给这些数量相对较少的组指定标记。这种基于聚类的过程的另一个优点是可以适应变化,并且能够挑选出区分不同组的有用特征。
2.3 聚类算法评估
聚类结果体现了数据的分布特征,从未知数据中发现有意义的模式。评估过程是对所发现的的模式的有效性的验证,用来指导用户调整模型和参数值。从直观上看,就是把相似数据划分到同一个簇中,而不相似的数据尽可能划分到不同簇中。
(1)纯度度
纯度(purity)可以理解为被正确聚类的对象的比例。该值越大,说明聚类的结果与被数据的实际分布情况越符合。对于输出结果的每个簇,统计其每个样本类标签,用出现次数最多的类别作为该簇的类标签,纯度值即为类别与所在簇类标签相同的样本所占的比例。
(2)信息增益
信息增益(InformationGain)也是一种评价聚类结果与实际数据的匹配程度的一种方法。其匹配度为每个簇的信息增益的加权求和,其权值为簇中样本占全部样本的比例。这个值越小,表示聚类结果与实际数据的匹配程度越高。如果结果中簇的样本的类标签相同,信息增益为0,反之,如果簇中样本含有多个类标签,则信息增益就比较高。
(3)紧密度和分离度
紧密度(compactness)和分离度(separation)用来反映聚类的质量。紧密度反映属于同一类的成员之间相似的程度,紧密度越大,类内相似性越大;分离度反映类间成员之间的相似性,分离度越大类间相似性越高。
2.4 半监督学习的两个假设
半监督学习之所以能够发挥作用要归功于两个常用的基本假设,即聚类假设(ClusterAssumption)和流形假设(ManifoldAssumption)。聚类假设是指在相同簇(cluster)中的样本有较大的可能拥有相同的标记。该假设等价于低密度分隔(LowDensitySeparation),即决策边界应尽可能通过数据较为稀疏的地方,从而避免把稠密的簇中的数据点分到决策边界两侧。在这一假设下,大量无标记样本的作用就是帮助探明样本空间中数据分布的稠密和稀疏区域,从而指导学习算法对利用有标记样本学习到的Q策边界进行调整。聚类假设简单、直观,经常以不同的方式直接应用于各种半监督学习算法的设计当中。
3 总结
半监督学习已经成为机器学习领域的一个研究热点,它必将得到更加广泛的应用。本文提出的基于正例和相似度矩阵调整k-means算法,还有可以改进之处。近年来,语义网技术得到了快速的发展,成为未来的重要研究方向之一。语义网技术使文本的特征提取和文本距离公式都发生了改变,从语义层次进行文本理解和分类是作者今后研究工作的重点。对半监督学习领域进行的初步探索,虽然取得了一些成果,但是许多问题有待于进一步深入研究和发现。
参考文献
[1] BingLiu,Web数据挖掘[M].俞勇,薛贵荣,韩定一译.北京:清华大学出版社,2009.111-140.
关键词:房价影响因素 聚类分析 可变模糊 指标特征规格化矩阵
引言
房地产是国民经济的基础性产业,对广大人民群众的生活有很重要的影响。其价格是房地产发展走向的重要风向标,对投资者和消费者都有重要的现实的参考价值,因而成为房地产供需双方的关注点。长期的低利率为房地产的开发提供了有利的条件,同时市场上的刚性需求和投资需求的急剧增长,特别是投资需求,使得房地产市场出现求大于供,根据需求供给价格机制原理,这必将导致房价上涨。由此可见,影响房价的因素很多,利用聚类迭代模型对其影响因素进行分析,找出影响较大的类别,为政府的宏观调控提供建议。
目前常用的聚类方法有层级分析法及非层级分析法。1965年札德提出模糊集合概念,以后逐渐发展形成的模糊聚类方法。1974年J.C.Dunn提出了模糊C―均值聚类算法,1981年J.C.Bezdek对其进行了改进和发展,1990年代大连理工大学的陈守煜教授先后提出了以相对隶属函数为基础的模糊识别、决策与模糊聚类理论模型,并在水利领域得到了广泛的应用。本文拟采用陈守煜教授提出的可变模糊聚类迭代模型对影响房地产价格的因素进行聚类分析,找出影响价格的敏感的因素。
一、分析模型的选用
目前对房价影响因素关系的研究主要是应用关联度来衡量因素之间的关系,这类方法具有不可改变的缺点,即公式只能够对一种情况进行分析,不能反映事物的本质。而事物的发展是连续渐变的,它们之间的界限不是绝对清晰的,而是存在着模糊性的。本文采用的可变模糊模型的聚类方法具有既可处理可变性又能处理模糊性因素的特点,既考虑了房价影响因素的可变性,有分析了各个因素之间的相关性,能够更真实客观的反映出结果,找到影响房价最重要的因素,具有实用性。
二、可变模糊聚类分析方法
2.1指标特征值规格化矩阵的确定
设有待聚类的n个样本组成的集合,可用mn阶指标特征值矩阵对样本集进行聚类。
(1)
式中:χij为聚类样本j指标i的特征值,i=1,2,,m;j=1,2,,n。
由于m个聚类指标特征值的物理量纲可能不同,需要对其进行规格化,即要将指标特征值χij变换为对聚类样本关于模糊概念的指标相对隶属度。在模糊聚类中通常有两类指标:
(1)越大越优效益型指标,也称为正相关指标,即指标值越大,聚类类别排序越前,其规格化公式为:
(2)
(2)越小越优成本型指标,也称为负相关指标,即指标值越小,聚类类别排序越前,其规格化公式为:
(3)
在式(2)、(3)中、分别表示样本集指标i的最大、最小特征值。如果对指标的相关性不是很清楚,可以使用式(4)进行判别。
(4)
其中:y表示指标标准特征值,其他字母符号同前。
经过规格化,矩阵X变换为模糊概念的相对隶属矩阵,即为指标特征值规格化矩阵R。
2.2可变模糊聚类矩阵的确定
设n个样本依据m个指标特征值规格化数按c个类别进行聚类,其模糊聚类矩阵为U。
式中:上式分别为(6)、(7)
为样本j隶属于类别h的相对隶属度,h=1,2,,n,并且满足条件,,。表示各个指标所占的权重。α,P为可变参数,体现了模糊聚类的可变性。通常取α=±1,P=±2,对出现的四类情况进行分别讨论。类别h的m个指标特征值规格化数表示了h类的聚类特征,在模糊聚类中通常称为聚类中心,则c个类别的聚类特征可用m×c阶聚类中心矩阵S表示。
S=(), (8)
式中为类别h指标i的聚类特征规格化数,i=1,2,,m;h=1,2,,c。
2.3类别特征值的确定
由于模糊概念在分级条件下具有不适用行,陈守煜教授提出了类别特征值的概念和公式。设已知对模糊概念的级别变量相对隶属度分布列h(h=1,2,,c)。级别变量h,以其相对隶属度为权重,其总和:
(9)
称为类别变量的特征值,简称类别特征值。
根据可反馈得到相应的级别,据此可对作出属于何种类别的判断。为了更细致的应用类别特征值进行判断,给出了判断准则公式[7]:
当,归属于1级;当,归属于h级,偏(h-1)级(h=2,3,,c-1);当,归属于h级,偏(h+1)级(h=2,3,,c-1);当,归属于c级。
在实际运用的过程中,由式(7)可知,在一般的情况下,存在四类的可变的情形,因而会产生四组,在进行类别判断时,取四组的平均值得到,最后依据上述判断准则进行评判。
三、 房价影响因素聚类分析的实证分析
基于可变模糊聚类分析方法的基本要求,在依据实际案例对房价影响因素进行聚类分析时,为了减少计算量,本论文只是针对α=2、P=2 这一类情况进行讨论,其余三种情况可根据这一步骤进行计算。因此本文从敏感性的角度以河南省安阳市的房价影响因素进行聚类分析,其中所使用到得数据大都是来源于河南统计年鉴以及中国统计年鉴,部分数据来源于安阳房管局网站公布的信息和网上搜集得到的资料分析处理所得。
3.1敏感性的聚类中心矩阵
房价影响因素对房价的影响的程度是各不相同的,采用敏感性进行分类,分为五类即:很敏感、比较敏感、敏感、不太敏感、不敏感等,规定敏感性的聚类中心矩阵S。
S=(0.9, 0.7, 0.5, 0.3, 0.1)
3.2房价影响因素指标的选取
表1安阳房价及影响因素
指标 房地产价格(元/平方米) 城市化水平(%) 房地产开发投资额 (亿元) GDP(亿元) 城镇居民人均可支配收入(元) 人口密度(人/平方千米)
参数 Y X1 X2 X3 X4 X5
2004 1470.92 31 11.6 463.47 4502.00 716
2005 1622.17 32.5 13.99 557.46 8649.02 720
2006 1610.40 34.2 24.22 646.00 9624.04 724
2007 1514.87 35.8 35.45 807.82 10723.64 728
2008 1683.11 37.3 43.69 1036.05 11556.78 732
(数据来源:河南省统计年鉴)
房价是在市场中形成的,因此市场的基本规律―供需理论对房地产依然起着重要的作用。从供给角度来看,房地产开发投资额反映了市场房地产供给的状况,因此将其作为供给的反映指标。从需求角度来看,城镇居民收入反映了房地产的有效需求,人口密度反映了房地产需求的总量要求,因此,选取这两个指标作为需求的反映指标。
通过查阅2005―2009年河南省统计年鉴,将上述五个指标的样本值整理如表1。
3.3房价影响因素的指标特征值规格化矩阵的确定
由表1可知,房价影响因素的指标特征值矩阵X,同时由式(4)可求得:=0.57>0,=0.4>0,=0.5>0,=0.6>0,=0.5>0,因为>0,所以五类指标均为正相关性指标,采用式(2)对其进行规格化,得到指标特征值规格化矩阵R为:
3.4不可变模糊聚类矩阵的确定
由于在文章的开始已经将,P常数化,因此,原来具有可变性质的式(7)已经转换为不可变的模型。根据式(7)以及α=2、P=2可求得不可变模糊聚类矩阵U为:
3.5类别特征值的求得
由于敏感性分为五类,所以在这里取c=5,由式(9)可知:
H=(2.8983,3.0891,3.2411,2.2796,2.9040)
3.6房价影响因素类别判定
由上节的判断准则并且结合该实际案例,我们可以确定房地产价格五个影响因素的类别如下:
没有因素属于第1类、第4类、第5类;属于第2类―比较敏感的指标有X4,即城镇居民收入水平,其他四个指标均属于第3类―敏感的指标。又2.5
四、结论
对影响河南省安阳市的房价的因素进行模糊聚类分析可以看出,在这五个因素中城镇居民收入对房价最为敏感。一般来说,不同地区的收入水平对应着不同的房价。从感性认识上看,北京、上海、天津等发达城市地区因收入水平相对较高,其的房价明显高于其他不发达地区低收入城市的房价,而东部地区的房价也明显高于中西部地区的房价,也说明了居民收入对房价影响的敏感度高与其他因素。这也是符合我们所得出的结论的。
参考文献:
[1] 计长鹏. 发展住宅建设尚需进一步努力[J]. 建筑管理现代化, 1999(2):18.
关键词:空间数据挖掘;聚类;设施选址
中图分类号:TP391文献标识码:A文章编号:1007-9599 (2010) 10-0000-02
The Application of Spatial Clustering Algorithms in the Facility Location Optimization
Zhang Jimei1,Shu Chuanling2
(1.Anhui University,Institute of Computer Science and Technology,Hefei230061,China;2.Institute of Management,Hefei University of Technology,Hefei230026,China)
Abstract:This paper summarizes the spatial data mining technology and spatial clustering algorithms.With facility location,by using graph theory and simulated annealing algorithm for traditional algorithms of exploratory improvement,which optimizes the clustering results.
Keywords:Spatial data mining;Cluster;Facility location
选址是指在建筑之前对地址进行论证和决策的过程,首先是考虑设置的区域以及区域的环境和应达到的要求;其次是考虑具体的地点和方位。设施选址是众多选址问题的一个重要研究领域。1909年,Weber研究了在平面上确定一个仓库的位置使得仓库与多个顾客之间的总距离最小的问题(称为韦伯问题),正式开始了选址理论的研究。1964年,Hakimi提出了网络上的p-中值问题与p-中心问题,从此,选址理论的研究开始活跃起来,文献数目也急剧增多。
一、关于空间数据挖掘
近几年随着空间数据库系统和存储技术的发展,以GIS为代表的空间数据库系统在人类的生产生活中发挥了重要的作用。所谓空间数据挖掘是指从空间数据库中抽取空间关系知识或其它没有在空间数据库明确存放的有意义的模式。空间数据挖掘可以帮助理解空间数据、发现空间关系和空间与非空间数据间关系、构造空间知识库、重组空间数据库,以及优化空间查询等。
常用的空间数据挖掘方法有:基于概率论的方法,空间分析方法,统计分析方法,聚类分析方法,基于模糊集合论的方法,遗传算法和空间关联规则挖掘方法等。
二、空间聚类分析主要方法
聚类分析是指从给定的数据集中搜索数据对象之间存在的有价值联系。空间聚类分析是将空间数据库中的数据对象按照某些特征划分为不同的有意义的组,同一组中的对象某些特征具有高度相似性,不同组中的数据对象具有明显的差异。
有关的聚类方法主要有:划分类方法、分层类方法、基于密度类方法、基于网格类方法和基于模型类方法。这里只介绍前两种方法。
(一)层次算法
层次聚类算法是通过将数据组织为若干组并形成一个相应的树来进行聚类的。其构建方法有分裂和凝聚两类。层次算法不需要参数,但需要定义分解的停止条件。层次聚类方法又可分为自顶而下和自下而上层次聚类两种。
(二)划分算法
给定一个包含n个对象或数据集,用划分算法将其划分为m个子集,其中每个子集均代表一个聚类(mQn)。每个子集至少包含一个对象且每个对象必须只能属于某一子集。代表性的算法有K-means算法,K-medoids算法,Clara算法,以及可用于随机分布空间的DBCLASD算法和改进的用于空间数据挖掘的Clarans算法。
1.K-means算法。K-means算法的工作过程是首先从n个数据对象中任意选m个对象作为初始聚类中心,对于剩下的对象,则根据它们与这些聚类中心的相似度(距离),分别将它们分配给与其最相似的聚类;然后再计算每个所获新聚类的聚类中心,不断重复这一过程直到标准测度函数开始收敛为止。一般都采用均方差作为标准测度函数。K-means算法对异常数据很敏感。
2.K-medoids算法。K-medoids算法的基本策略是通过首先任意为每个聚类找到一个代表对象而首先确定n个数据对象的m个聚类,其它对象则根据它们与这些聚类代表的距离分别归属到各相应聚类中。如果替换一个聚类代表能改善所获聚类质量的话,就可以用一个新对象替换老聚类对象。在聚类效果上,K-medoids算法较好地解决了K-means算法易受噪音点影响的问题,但K-medoids算法的处理时间较K-means算法更大。
三、设施选址问题应用举例
(一)问题描述
现以某地的某新区为例,该新区中新建了n个居民点,现要对新区中再建设m所学校进行选址(注:m
(二)解决算法
基于以上设施选址问题描述,此类问题可以用聚类分析算法处理解决。具体算法(算法1)如下:
输入:n个居民点;建学校数目m;其中(mQn);循环次数:s;
输出:m个校址;
处理流程:
1.在A中任意选择m个居民点(a1’,a2’,……,am’)作为聚类中心;依次计算A中的每一个ai与每一个聚类中心aj’之间的距离dij;其中dij用直接空间距离表示dij= ;对于每一个ai选择出dij的最小值Min(dij),并将ai划分到该聚类中心所在的划分中;
3.在每个划分中,计算所有属于这个划分的ai的坐标均值;
在每个划分中,计算所有属于这个划分的ai与该划分的坐标均值之间的距离;在每个划分中,将坐标均值作为该划分的新的聚类中心aj’;
4.计算d= ;循环执行(2)、(3),直至到达既定循环次数s;
(三)聚类分析方法在设施选址应用中的改进
1.模拟退火算法。模拟退火算法来源于固体退火原理,将固体加温至充分高,再让其徐徐冷却,加温时,固体内部粒子随温升变为无序状,内能增大,而徐徐冷却时粒子渐趋有序,在每个温度都达到平衡态,最后在常温时达到基态,内能减为最小,温度为T时粒子达到平衡态的概率为exp(-E/kT),其中k为常数,E为内能改变量。针对设施选址问题,可将内能E模拟为距离,将温度T模拟为空间点。算法略。
2.聚类分析方法应用于设施选址的改进算法。基于以上分析和算法,通过对K-means算法和模拟退火算法的有效结合,聚类方法应用于设施选址的改进算法如下:
输入:n个待聚类空间点,聚类中心数目m,直接空间距离s;
输出:m个聚类,m个聚类中心;
处理流程:
(1)调用算法1,用K-means方法求出m个聚类中心和m个聚类;
(2)依次在每个聚类中,取其子集,使得子集中的每个数据点距离该聚类中心的直接空间距离不大于s,从而产生m个子集;
(3)对以上产生的m个子集和m个聚类中心,调用模拟退火算法,产生m个新的聚类中心;返回m个聚类中心和m个聚类;终止。
四、结束语
本文通过空间数据挖掘聚类算法在设施选址方面的应用展开研究,目的是为公共设施选址提供决策支持。在聚类分析算法应用于设施选址的传统解决办法的基础上,作了三方面改进,第一,解决了决策空间中有障碍物存在的情况下距离表示;第二,将道路交通状况差异列入聚类依据,使聚类结果得到优化;第三,在使用K-means算法的基础上,用取聚类子集方法和模拟退火算法对K-means的聚类结果进行优化,既保证了算法的执行效率,又避免了噪音点的干扰和聚类中心落在障碍物上所造成的聚类结果无意义的情况。
参考文献:
[1]王海起,王劲锋.空间数据挖掘技术研究进展[J].地理与地理信息科学,2005
[2]巩华荣,何佳.空间数据挖掘技术的研究与发展[J].测绘与空间地理信息,2007,5
[3]王新洲.论空间数据处理与空间数据挖掘[J].武汉大学学报(信息科学版),2006,1
[4]朱明.数据挖掘.合肥:中国科学技术大学出版社,2002,5
[5]王辉.城市空间数据挖掘方法的研究[A].山东省测绘学术年会论文集[C].2006
关键词:关联数据 社会网络分析 共词分析 Ucinet SPSS
中图分类号: G254 文献标识码: A 文章编号: 1003-6938(2013)05-0129-04
关联数据(Linked Data)概念由“万维网之父”Tmi Berners-Lee于2006年首次提出[1]。 关联数据是语义web的主题之一,描述了通过可链接的 URI 方式来、分享、连接Web 中各类资源的方法。关联数据通过网络把以前没有关联的相关数据链接在一起,允许用户发现、关联、描述并再利用各种数据,因而自关联数据提出以来便得到了社会广泛的认同和快速的发展,BBC、纽约时报、美国国会图书馆等都纷纷加入到关联数据的出版之列[2],关联数据也日益成为国内学术界的关注热点。因此本文运用社会网络分析方法和共词分析方法,通过关联数据领域作者合著网络、关键词共现网络和关键词共词聚类分析,了解我国关联数据研究团队发展现状、研究热点和内容结构,以期为后续研究与实践的开展提供参考。
1 数据来源与研究方法
1.1 数据来源
本文选取CNKI的中国学术期刊网络出版总库为数据来源库,以“关联数据”或“linked data”为检索词在主题字段检索,检索时间是2013年4月10日,剔除重复和非相关文献后得到有效学术论文117 篇。
1.2 数据处理工具
在共词分析和社会网络分析方法中,数据处理是十分重要的步骤。使用浙江大学信息资源管理系刘启元开发的文献题录信息统计分析工具(Statistical Analysis Toolkit for Informetrics,SATI)。该软件通过对期刊全文数据库题录信息的字段抽取、频次统计,进而生成共现矩阵。生成的共现矩阵可以直接导入Ucinet和SPSS软件进行处理分析[3]。
1.3 研究方法
本文运用社会网络分析法生成作者合著网络和关键词共现网络图谱来分析关联数据领域的作者合著关系及学科的研究热点;运用共词聚类分析法生成共词聚类树状图来分析关联数据研究论文的主流研究领域的结构及其关系。
2 构建共现矩阵
将从CNKI中导出的Endnote格式的文献题录信息导入 SATI 软件,分别选取作者和关键词字段,进行抽取和频次统计,构建高频作者合著共现矩阵和高频关键词共现矩阵,保存为 Excel文件,便可直接导入Ucinet和SPSS进行处理分析。
3 高频作者合著分析
3.1 高频作者合著网络分析
打开 Ucinet 导入 Excel 格式的高频作者共现矩阵,利用Ucinet软件集成的可视化工具Netdraw绘制高频作者合作关系网络图,通过K-cores分析,将所有节点分类,选择 Transform—node attribute editor 添加节点的大小和连线的粗细对网络进一步调整后,得到高频作者合著网络图谱(见图1)。图中每个节点代表作者,节点越大代表著者的频次越高,节点之间的连线粗细表示作者之间的合作强度。图中最大的团体是上海图书馆和广东外语外贸大学图书馆为合作机构下的刘炜、夏翠娟、张春景、赵亮、钱国富,在该合著网络中频率达到最高。该团体以刘炜和夏翠娟为代表围绕国家社会基金项目“关联数据的理论和应用研究”和“《资源描述与检索》的中文化及其应用研究”对关联数据技术及其实现、开放应用协议、RDA进行了研究;四川大学和中国医学科学院医学信息研究所为合作机构下的范炜、方安、洪娜和邹庆围绕国家社会科学基金项目“关联数据中潜在知识关联的发现方法研究”对生物医学关联数据研究、语义管道技术、词表资源关联化、术语服务进行了研究;以中国科学院国家科学图书馆和中国科学院研究生院为合作机构下的的李春旺、黄永文、刘媛媛和邓兰兰等人围绕国家社会科学基金资助项目“我国数字图书馆集成融汇方法研究”和中国科学院国家科学图书馆青年人才领域前沿项目“利用LOD实现数字图书馆中数字资源与知识内容关联揭示的技术方法研究”对关联参考服务、对象共指问题、关联数据应用的体系框架、关联数据资源集相似度计算方法、Web数据关联创建、信息检索服务和注释服务等进行了研究。从图中还可以看出,作者合著网络图谱整体联系稀疏,网络中大多数节点之间没有连线,关联程度非常小,表明目前关联数据领域还没有形成一支成熟的研究队伍。
3.2 网络密度分析
网络密度可以用来度量网络成员之间联系的紧密程度。一般来说,密度高的网络信息沟通性较强;而密度低的网络常信息不畅[4]。利用Ucinet软件得到高频作者合著网络密度(见图2)为0.0097,这是一个相对偏低的密度值,网络连通性不好,这也印证了在前面作者合著网络分析中的结果。说明作者之间的合作程度低,作者之间不能很好地进行深层次的知识构建,不利于我国关联数据研究的快速发展。
3.3 高频作者合著中心性分析
中心性是社会网络分析中的重点之一,它反映了行动者在其社会网络中所处的地位及权力影响。
3.3.1 点度中心性分析
本文使用点度中心性来测量作者在网络中的重要性。作者点度中心性越高者,表示其在网络中与较多的作者合作,在网络中具有较高的影响力,从而可以认为其具有核心作用。利用Ucinet进行点度中心性分析得到点度中心度排名在前10位的作者(见图3)。一般情况下,频次较高的作者与其他作者合作的机会更多,因而普遍点度中心性也较高。通过分析可知,张勇、邢春晓等的点度中心性较原先频次排名有较大幅的提升,说明这些作者具备相对其频次排名有更高的影响力;而范炜、刘炜、黄永文等的点度中心性较原先频次排名有较大幅度的回落,说明这些作者发表独著的频率高。由图3可见,张春景的点度中心性最大,其次为夏翠娟,表明这些作者与网络内其他作者的知识交流更加频繁,在关联数据作者合作网络中具有核心作用。
3.3.2 中介中心性分析
中介中心性排名较高的人往往是处于结构洞位置的人。结构洞是社会网络分析中一个重要的概念,它的意义在于处于结构洞位置,说明他们掌握了更多的学术资源,更具有学术创新力;其次处于结构洞位置对于他们迅速提高自身声望具有重要作用[9]。本文利用Ucinet进行中介中心性分析,结果如图4所示,从图中可看出,李春旺的中介中心性最高,其次是范炜、刘炜、夏翠娟和张春景,表明这些作者在整个网络中具有举足轻重的地位,往往是连接多数作者的核心人物,他们对于关联数据的研究产生了极为深远的影响。
4 高频关键词共现网络分析
打开 Netdraw 软件,导入高频关键词共现矩阵,并用K-cores分析,得到基于节点在网络中作用大小的图谱(见图5)。从图中可以看出网络中节点最大的正方形占据网络核心地位,说明语义网、图书馆、RDF、URI、数据网络等是关联数据领域的核心关键词,是目前该领域的研究热点。在某种程度上,可以认为其他研究领域都是围绕着这些核心展开的。同时利用Ucinet进行中介中心性分析(见图6),得到的大部分也都是这些关键词,更加充分说明这些关键词在网络中的重要地位。除此之外,在中介中心性中前十位中的本体、SKOS、SPARQL和术语服务也可说明是该领域的研究热点。从关键词共现网络来看,除了核心关键词以外,其它的节点联系较为松散,说明关联数据引入我国时间很短,发展还很不成熟,还没有形成明显的研究主题。
5 高频关键词共词聚类分析
为了更加全面地了解关联数据研究的主题结构,本文采用共词聚类分析方法对关联数据研究的内部结构进行深入分析。将高频关键词共现矩阵导入SPSS11.5进行层次聚类分析。得到高频关键词的聚类分析树状图(见图7)。聚类结果显示,国内关联数据领域的研究热点主要集中在六大主题:开放数据和关联开放数据研究;知识组织系统研究;书目研究;关联数据基本理论研究;图书馆的数字资源整合研究和关联数据研究。
(1)开放数据和关联开放数据研究。包括关键词开放数据、信息组织、开放政府数据、关联开放数据、用户模型和互操作。开放数据是一种哲学理念及实践,要求数据可以被任何人自由获取,没有来自版权 、专利或其它机制限制。随着网络技术的发展,互联网中日益丰富的具有异构、无序、多元特点的海量信息资源使网络信息组织面临着巨大的挑战,而开放数据能与现代信息组织的关键技术关联数据、语义网、云计算等相结合而成为网络信息组织的有效实践。开放数据在信息组织中的应用朝两个方向分别发展:公共信息服务领域(政府、科研组织等)的数据开放与信息透明制度方面的应用、商业领域的应用[5]。在政府公共信息服务领域中,美英等国先后开展了开放数据的实践应用。
(2)知识组织系统研究。包括关键词中国分类主题词表、术语服务、本体、数字图书馆、NKOS、SKOS。主要涉及词表资源关联化、知识组织规范研究、术语服务和知识序化等研究。2008年国家图书馆启动的“国家图书馆知识组织标准规范”项目是国内图书馆界首次对网络环境下知识组织系统的设计、构建和应用进行全面系统的总结和编制[6]。
(3)书目研究。包括关键词FRBR、关联数据集、RDA、SPARAL、关联服务和元数据。主要对书目数据关联化、书目数据、编目规则RDA和FRBR进行了研究。关联数据是今后书目数据获得开放应用的关键技术之一。它能够使 RDA 编目的数据直接以机器可理解的方式、链接和利用。
(4)关联数据基本理论研究。包括关键词RDF、URI、D2R。研究涉及关联数据发展背景、定义、基本原则、实现机制以及关联数据在当前国内外的应用现状等研究。
(5)图书馆的数字资源整合研究。包括关键词信息聚合、本体映射、图书馆、信息技术、数据网络、信息资源、知识服务和数字资源整合。对图书馆数字资源整合的研究主要集中在关联数据在图书馆馆藏信息资源聚合中的作用、应用和基于关联数据的馆藏资源聚合模式研究。同时也有涉及图书馆、档案馆和博物馆数字资源整合方面的研究。
(6)关联数据研究。包括关键词语义网、Dbpedia、数据、电子政务、知识组织和知识发现。主要围绕关联数据的基础、技术和实现方式展开研究,尤其通过实例进行关联数据的研究成为很多学者关注的热点,并取得了丰硕的研究成果。
参考文献:
[1]Berners-Lee T. Linked Data-Design Issues[EB/OL]. [2009-02 -18]. http: ///DesignIssues/Linked
Data. html.
[2]黄永文.关联数据在图书馆中的应用研究综述[J].现代图书情报技术,2010,(5):1-7.
[3]刘启元,叶鹰.文献题录信息挖掘技术方法及其软件SATI的实现-以中外图书情报学为例[J].信息资源管理学报,2012,(1):50-58.
[4]张利华,闫明.基于SNA的中国管理科学科研合作网络分析[J].技术与创新管理,2010,(4):39-45.
[5]李佳佳.信息管理的新视角-开放数据[J].情报理论与实践,2010,(10):35-39.