前言:一篇好文章的诞生,需要你不断地搜集资料、整理思路,本站小编为你收集了丰富的统计学经验法则主题范文,仅供参考,欢迎阅读并收藏。
大数据技术的发展又离不开数据挖掘,那。。。
什么是数据挖掘?
数据挖掘(英语:Data mining),又译为资料探勘、数据采矿。它是数据库知识发现(英语:Knowledge-Discovery in Databases,简称:KDD)中的一个步骤。数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。
数据挖掘如此重要,如何进行数据挖掘呢?当然是知识!
知识将成为比数据更重要的资产
复旦大学计算机科学与技术学院教授肖仰华博士在他近期所作的《知识图谱与认知智能》报告中指出:前几年大数据时代到来的时候,大家都说“得数据者得天下”。去年,微软研究院的沈向阳博士曾经说过“懂语言者得天下”。而我曾经论述过,机器要懂语言,背景知识不可或缺。因此,在这个意义下,将是“得知识者得天下”。如果说数据是石油,那么知识就好比是石油的萃取物。
那么问题来了?你需要哪些知识?
数据挖掘是个复杂的过程,它需要统计学、数据库、机器学习、模式识别等多学科的交叉融合来实现。
数据挖掘过程中用到的算法也很多,下图是对这些算法的一个总体梳理:
接下来我们就来说说这传说中的十大经典算法:
决策树(C4.5算法)
聚类(K-means算法)
关联规则(Apriori算法)
随机森林算法
逻辑回归
SVM
朴素贝叶斯
K最近邻算法
Adaboost 算法
神经网络
篇幅有限,为了保证阅读质量,本文只讲解前三个。其余的算法讲解会不定期更新的呦,想学习的小伙伴看过来???
十大经典算法图解(一)
01
决策树(C4.5算法)
决策树(Decision Tree),又称为判定树,是数据挖掘技术中的一种重要的分类方法,它是一种以树结构(包括二叉树和多叉树)形式来表达的预测分析模型。
根据一些特征( feature )进行分类,每个节点提一个问题,通过判断,将数据分为若干类,再继续提问。这些问题是根据已有数据学习出来的,再投入新数据的时候,就可以根据这棵树上的问题,将数据划分到合适的叶子上。
决策树生长算法流程(以C4.5算法为例):
C4.5算法实例图解:
两周内的天气及网球俱乐部顾客光顾情况
02
聚类(K-means算法)
什么是聚类?
什么是K-means?
K-means算法流程图解:
Setp1:确定初始质心
Setp2:计算距离&划分簇
Setp3:迭代计算中心点
Setp4:收敛
03
关联规则(Apriori算法)
关联规则是形如XY的蕴涵式,其中, X和Y分别称为关联规则的先导(antecedent或left-hand-side, LHS)和后继(consequent或right-hand-side, RHS) 。其中,关联规则XY,存在支持度和信任度。
关联规则经典算法及优缺点比较:
Apriori算法是种最有影响的挖掘布尔关联规则频繁项集的算法。它的核心是基于两阶段频集思想的递推算法,该关联规则在分类上属于单维、单层、布尔关联规则。
在Apriori算法中,寻找最大项目集(频繁项集)的基本思想是:算法须要对数据集进行多步处理。
Apriori算法图解:
1.产生频繁项集
关键词:logistic回归 BP神经网络 上市公司 信用风险
在经济全球化的趋势下,信用将成为主要的交易方式,金融危机的爆发更是显示出信用风险管理和信用风险分类的重要性。从20世纪60年代至70年代的统计学方法,20世纪80年代的专家系统到90年代的神经网络,各种信用风险评级方法层出不穷。在我国,信用风险的度量和管理较为落后,金融机构没有完善有效的评级方法和体系,目前所应用的方法主要是粗略的定性方法,如综合利用宏观经济与行业风险、所有权及治理结构、信用风险及其管理、市场风险及其管理、资金来源/流动性、盈利能力等进行“加权”加分,信用风险的度量模式显得比较单一,所以对于信用风险分类方法是学术界和实务界必须解决的课题之一。
一、文献综述
(一)国外文献Logistic模型最早是由Martin (1977)用来预测公司的破产及违约概率。他从1970年至1977年间大约5700家美联储成员银行中界定出58家困境银行,并从25个财务指标中选取总资产净利润率等8 个财务比率,用来预测公司的破产及违约概率,建立了Logistic回归模型,根据银行、投资者的风险偏好设定风险警界线,以此对分析对象进行风险定位和决策。同时还将Z-Score模型,ZETA模型和Logistic模型的预测能力进行了比较,结果发现Logistic回归模型优于Z- Score模型和ZETA模型。Madalla (1983) 则采用Logistic模型区别违约与非违约贷款申请人,其研究结果表明,当违约概率p>0.551时是风险贷款;当p
(二)国内文献 在国内的研究文献中,齐治平(2002)从我国沪、深两交易所选取164 家上市公司,然后随机分成两组,运用线性判别模型、Logistic 回归模型以及含有二次项和交叉项的Logistic 模型对数据样本提前两年进行预测。结果发现,含有二次项和交叉项的Logistic模型对前一年数据的预测准确率最高。吴世农(2003)使用剖面分析、单变量分析、线性概率模型(LPM)、Fisher二类线性判定、Logistic模型等统计方法对财务困境公司进行预测研究,其中Logistic模型对前一年数据的预测准确率达到93.53%,Fisher判别分析法和LPM的准确率都为89.93%。庞素琳(2003)利用多层感知器分别对我国2000年106家上市公司进行信用评级,信用评价准确率高达98.11%。本文即是从上市公司的财务指标入手,通过logistic回归分析和BP神经网络,构建衡量企业信用状况的模型,并通过实证研究考察模型的适用性,对比两者信用风险分类的准确度。
二、研究设计
(一)样本选取和数据来源本研究选取沪深两市A股市场上2005年至2007年三年中部分被进行特别处理的118家ST公司和126家非ST公司,数据主要来源于CSMAR深圳国泰安信息技术有限公司提供的财务指标数据,将118家ST公司的财务数据和126家非ST公司的财务数据划分为训练样本和测试样本。样本集选取如(表1)所示。
(二)变量选取本文采取的财务数据在参考了已有文献以及考虑到实际数据可得性的基础上,选取了能够反映短期还款能力,长期还款能力,盈利能力和营运能力4方面共12个财务指标。指标变量名称及自变量符号具体见表。因变量为0-1变量,信用级别高的设置为1,信用级别低的设置为0。在做logistic回归的时候会进一步运用向后筛选法剔除方差贡献率不大的指标变量。具体如(表2)所示。
(三)模型设定
(1)Logistic回归模型:
(2)多层次前向神经网络。本文所应用的是一种称为前向网络的特殊神经网络结构。本研究应用Rumehhart于1986年提出的如下函数:Ii=wijxj+?准,xi=fi=其中,Ii为神经元i的层输入,xi为神经元的输出,wij为神经元间的连接权,?准为神经元i的偏置。每一条连接弧都被赋予一定的数值来表示连接弧的连接强度,正的权值表示影响的增加,负的权值表示影响的减弱。在前向网络中,神经元间前向连接,同层神经元互不连接,信息只能向着一个方向传播。前向网络的连接模式是用权值向量W来表示的。在网络中,权值向量决定着网络如何对环境中的任意输入作出反应典型的学习算法是搜索权值以找到最适合给定样本的权值。在本研究中应用的是多层前向网络的BP算法,其主要作用是知识获取和推理,采用有导师学习的训练形式,提供输入矢量集的同时提供输出矢量集,通过反向传播学习算法,调整网络的连接权值,以使网络输出在最小均方差意义下,尽量向期望输出接近,通过修改各层神经元的连接权值,使误差减小,然后转入正向传播过程,反复循环,直至误差小于给定的值为止。本文建立的BP神经网络图(见图1)。本文建立财务困境神经网络预警模型主要考虑以下两方面的问题:一是确定网络结构;二是学习参数的调整。首先考虑网络结构的确定。网络结构主要包括连接方式、网络层次数和各层结点数。网络的连接方式代表了网络的拓扑结构,Lippmann(1987)证明在一定条件下,一个三层的BP神经网络可以用任意精度去逼近任意映射关系,而且经过实验发现,与一个隐层相比,用两个隐层的网络训练并无助于提高预测的准确。因此在本研究中采用单隐层的BP网络。各隐含层节点数的选择并无确定的法则,只能结合实验并根据一些经验法则:隐层节点数不能是各层中节点数最少的,也不是最多的;较好的隐层节点数介于输入节点和输出节点数之和的50%~75%之间;隐层节点数的理论上限由其训练样本数据所限定。
三、实证结果分析
(一)logistic模型的参数估计及结果常规的线性判别模型计算得到的Z值只是个抽象的概念,无法从经济学上进行解释,Logistic回归分析解决了这个问题,其前提假设符合经济现实和金融数据的分布规律,残差项小要求服从止态分布。本文运用SPSS自带的Wald向后逐步选择法筛选变量,提高模型的判别性能,从全变量模型开始,逐步提出对残差平方和贡献最小的变量,具体的回归结果见(表2)。以2005年为例,根据SPSS计算结果中的参数表,估计Logistics模型的判别方程,(表3)反映了最大似然迭代记录(显示最后的迭代过程),(表4)反映了参数估计结果。步骤9是经过9步变量筛选后最后保留在模型中的变量。从各个系数的Wald值及伴随概率p来看,最终选定的5个指标变量具有最高的解释能力。综上,2005年公司分类的logistic模型为:p=。从(表5)步骤1及步骤9的分类结果看出,剔除不显著变量之后,分类准确率并未大幅下降,可以认为最终的模型能通过检验。(表6)显示了最终的Logistic模型参数估计结果。(表7)显示了模型分类准确率。
(二)BP神经网络的参数估计及结果首先对输入输出样本进行数据处理,消除影响预测结果的噪声,神经网络输入的变量要求规范在[-1,1](若使用tanh函数)或[0,1](若使用logistic函数)之间。本文对输入数据进行标准化处理,采用以下方法:X=。X为规范后的变量,x为每个变量的实际值,x1为每个变量的最小值,x2为每个变量的最大值。Matlab中相应的函数为[output_X,PS]=mapminmax(X,output_min,outpt_max)由于实际财务困境评价往往非常复杂,企业财务状况的好坏与财务比率的关系常常是非线性的,而神经网络作为一种非线形建模过程,并不依赖判别模型的假设,能找出输入与输出的内在联系,因此本文决定尝试使用神经网络技术进行信用状况的分类研究,分为训练集和测试集两组对神经网络进行训练,过程如下:第一,输入层和输出层神经元数目的确定。第一层为输入层,采用判别分析得出的模型变量为输入变量,共有12个结点,每个结点代表相应的财务比率。第三层为输出层,用一个结点表示,训练导师值为0代表信用级别“差”的公司,1代表信用级别“好”的公司。第二,隐含层数和隐结点个数的确定。本文选择单隐层的前馈BP网络;通过学习逐步增加隐神经元数,训练反复调整。最后定为10个隐结点。第三,用训练集的数据训练这个神经网络,使不同的输入向量得到相应的输出值,当误差降到一个指定的范围内时,神经网络所持有的那组权数值就是网络通过自学习得到的权数值,即完成了神经网络的自学习过程。第四,输入待评价的样本(本文直接在输入矩阵中划分为训练),让训练好的神经网络输出企业财务状况的标志(0或1),即实现神经网络的模式分类。神经网络的初始权重由Matlab随机产生的。训练算法采用专用于模式分类的trainscg方法,各种训练参数见(表8)。由此看出,算法逐步收敛,最终达到误差标准见(表9)。
(三)两种模型比较分析 本文对Logistic和BP神经网络分别对我国上市公司的信用状况给予两类模式的评级,最终发现,Logistic和BP神经网络在我国市场上的分类效果相当(见表10)。主流观点认为,人工神经网络具有良好的模式识别能力,可以克服统计等方法的限制,因为它具有良好的容错能力,对数据的分布要求不严格,具备处理资料遗漏或是错误的能力。最为可贵的一点是人工神经网络具有学习能力,可以随时依据新准备的数据资料进行自我学习、训练、调整其内部的储存权重参数以应对多变的企业运作环境。但是本文得出的结果是:传统的Logistic方法和神经网络方法的分类效果相当。现代人工智能方法并未表现出理论上的优势。可能的原因是:网络不稳定,训练样本的仿真准确率很高,但对测试样本的仿真准确率会降低;解释性差,网络最终确定后,每个神经元的权值和阈值虽然已知,但不能很好地分析各个指标对结果的影响程度,对现实问题中的经营管理也就不能起到很好的借鉴作用;网络的输入个数与隐层节点个数的确定没有理论指导,只能通过经验确定。
四、结论
本文选取2005年至2007年部分被进行特别处理的118家ST公司和126家非ST公司,以其财务指标为样本,进行Logistic回归和BP神经网络分类,对这两种信用风险评判模型在中国市场做了实证研究。结果发现:两种模型均适用于中国上市公司两模式分类(ST和非ST公司),而BP神经网络在我国市场上并未体现其分类的优势,分类准确度和Logistic相当。即使如此,本文证实了Logistic和BP神经网络模型对于我国上市公司的评级还是有效的,能够为投资者的科学决策提供建设性的指导意见,使投资者理智地回避风险和获取收益。同时,该判别模型也有利于准确评价一个企业的信用状况,从而为银行等放贷机构提供决策依据。
参考文献:
[1]吴世农、卢贤义:《我国上市公司财务困境的预测模型研究》,《经济研究》2001年第6期。
[2]齐治平、余妙志:《Logistic模型在上市公司财务状况评价中的应用》,《东北财经大学学报》2002年第1期。
[3]庞素琳、王燕鸣、罗育中:《多层感知器信用评价模型及预警研究》,《数学实践与认识》2003年第9期。
虽然我国目前还没有对房地产保有环节进行普遍的税收征管,但是在房地产存量交易的税收核价环节以及金融机构的风险控制部门等都已经存在了房地产批量评估的需求。市场上出现了一些批量评估的系统或产品,在批量评估技术方面已经具有了一定的社会实践基础,就目前几个主流的房地产批量评估技术做一简要汇总和分析,希望有助于房地产批量评估技术的深入探讨和研究。
关键词:
房地产批量评估,标准价调整法,多元线性回归模型,数据挖掘
根据房地产批量评估技术中人工参与程度的多少,现行批量评估技术方法可分为:以人工为主、以计算机技术为主和以人工与计算机技术相结合三类。本文将对此进行讨论,对如何选用房地产批量评估技术方法进行研究。
1以人工为主的技术方法之标准价调整法
1.1标准价调整法的概念标准价调整法,作为市场比较法派生出来的一种方法,类似于城市动拆迁评估中的基准价格修正法和香港的指标估价法,但又有其自身的特点。标准价调整法可定义为:一种批量估价方法,在一定区域范围内进行估价分区,在每个估价分区内设定标准房地产并求其价值,利用房地产价格调整系数将标准房地产价格调整为各宗房地产的价值。标准价调整法适用于估价对象物业属性和估价特性较为近似的物业,尤其适用于小范围且价格影响因素少的楼栋批量评估。
1.2标准价调整法在不同物业类型中的应用标准价调整法的实施涉及到:估价分区的划分、标准房的设定、价格修正系数的设定以及标准房价格的评估。无论应用于哪种物业类型,这四个步骤必不可少,差异在于各步骤的具体实施方法不尽相同。在住宅物业的评估中,往往以小区作为估价分区的划分,在一个小区内根据一定规则设定一个标准房,再由有经验的估价师根据实地调研情况设置标准房与其他房屋之间的价格差异系数。最后仍由估价师定期对标准房进行估价,并通过已设定的系数求得所有物业的价格。在办公物业的评估中,差异在于分区是以楼栋或项目来划分,后续步骤和住宅一致。在集中型商业物业或工业物业中,都可以借鉴上述方法来进行操作。但在沿街零售型物业中,由于沿街零售性物业分布广泛,没有明显的集中趋势,并且价格影响因素的差异较大,导致标准价调整法的应用也与其他物业类型有较大不同,主要表现在估价分区的划分和价格修正系数的设定这两个环节。现有的技术方案一般采集两级调整的方案。按商圈(或类似因素)将城市区域划分成诸多估价分区,在每个分区中设定一个标准商铺,称为区域基准商铺。之后在分区内再进行一次估价分区的划分,这一划分以路段为分区,在每个路段中设定一个标准商铺,称为路段基准商铺。估价人员经过现场调研后,需设置两级修正系数,即区域基准商铺与路段基准商铺的价格调整系数,以及路段基准商铺与路段内其他商铺的价格修正系数。最后经估价师定期对区域基准商铺进行估价,并通过两级系数的修正求得所有商铺的价格。
1.3标准价调整法的优点①在规模较小的城市中,可以实现绝大部分物业的批量评估需求,具有较强的实用性。②可以达到较高的批量评估覆盖率。③估价准确性较好,并具有较好的质量可控性。④除建设初期投入的人员成本和时间成本较大,后续维护的成本适中。
1.4标准价调整法的缺点①由于人工作业的工作量太大,不适用大、中型城市。②对估价人员的经验要求较高,尤其是系数设置与标准房的价格评估等环节对质量的要求很高。团队运作时,需要具备较高的质量管理能力。③不同物业间的系数关系可能受到市场、规划等因素的影响而改变,需要定期进行监控和维护,有一定的难度或容易疏忽和遗漏。
2以人工为主的技术方法之多元线性回归模型
2.1多元线性回归模型简述多元回归分析是目前在国外批量评估中占主流的校准技术,包括线性回归分析和非线性回归分析。其基本原理是:在大量样本的基础上,通过对变量、误差的假定,依靠最小二乘法来拟合因变量与自变量关系,从而建立数学模型。多元回归是统计学方法,运用时要和经济学理论结合,实践中对多元回归模型的应用是基于特征价格理论。国内关于运用特征价格理论来进行房地产价格批量评估也有较多的研究和学术论文,但绝大多数还处于理论研究阶段。
2.2多元回归分析的主要步骤多元回归既可以用来预测售价,也可以用来预测租金,甚至可以用来统计其他中间参数。在步骤上不同类型的物业没有明显区别,只是在变量的选择与量化上有所不同。为便于表述,下面以预测办公物业价格为例来进行阐述。①选取样本:为了训练预测办公物业价格的模型方程,在目标范围内选取一定数量的样本,调研其价格信息和基础信息。这里的重点是样本对总体的代表性以及样本数据采集的准确性。②构建办公物业价格影响因素体系:通过调研分析以及房产专家意见调查,归纳出可能影响办公物业价格的特征变量,并进行赋值量化。③模型拟合:观察、分析特征变量的变动规律,采用统计分析软件进行分析,对模型和特征变量赋值不断地尝试和修正,找出合理的价格和各特征变量之间的定量关系。④模型检验:最终得到的模型是否成功,取决于经济意义检验、统计检验、计量经济学检验以及模型预测检验。其中统计检验包括了拟合优度检验和显著性检验;计量经济学检验包括多重共线性检验及异方差检验等。但凡通过上述所有的检验,即可认为模型已成功建立。⑤模型应用:对办公物业的特征变量进行赋值,代入最终的模型进行自动计算,即可评估办公物业的价格。
2.3多元线性回归模型的优点①多元回归方法所涉及的工作量主要在于特征变量的数量以及特征变量的赋值容易程度,受城市规模的影响较小,因此可以适用于大中型及以上城市。②多元回归方法通过拟合因变量与自变量关系从而建立数学模型,这个过程与何种物业类型无关,因此理论上多元回归方法适合各类型物业的批量评估建模。③通过“调整R方”和“标准误差”两项指标,基本可以判断和掌握模型价格估计的准确度,并且可以对模型进行持续改进,从而保证批量评估的准确性。④在市场稳定时期,由于自变量与因变量的关系也较为稳定,因此模型更新维护的成本较低,从而价格更新的成本也较低。
2.4多元线性回归模型的缺点①在不同区域或不同市场,价格的影响因素不尽相同,建立的回归模型也不相同。因此对每个城市每个物业类型的市场需要分别建立回归模型。②多元回归的建模研究过程中,在理论假设、建模方法、数据采集等各环节中,需要综合的知识、经验和技能要求。除了房地产估价师所需具备的估价理论知识、实务经验、调研及价格判断能力外,还需要统计学、经济学等多学科知识。对人员和团队的综合能力要求很高,而这往往是传统估价机构所欠缺的。③对样本数据的准确性要求较高。如果没有准确的样本数据,建立科学的经济学模型则为空中楼阁。而要获得准确的样本数据,长久以来一直是一个难题,其中有人为的因素(如交易避税),也有客观的因素(如商业物业的交易活跃度低)。④在市场波动大的时候,原有模型可能失效或者预测能力大幅下降,而模型的迭代或维护周期较长,可能无法及时调整。
3以计算机技术为主的技术方法
房地产批量评估领域中以计算机技术为主的技术方法主要是基于大数据的数据挖掘。这一技术的应用最早开始于房地产互联网企业,如搜房、安居客等房地产房源网站,后来逐步被引入到房地产批量评估的技术或产品研发中来。
3.1数据挖掘的方法和原理首先,数据挖掘的前提需要有大量的数据可供挖掘。随着互联网在各行各业的不断渗透,房地产中介行业中出现了大量房源网站,并逐步成为了房地产经纪人房源招揽客户的主要渠道。一个房源网站中可以搜索的房源数量多达数十万甚至上百万条,并且每天都有数万条以上的数据更新。这样的网站有好几家,为房地产的数据挖掘提供了可行的前提。其次,结构化的数据为数据的采集提供了便利。在房源网站中,房源已经按小区进行了分类,经纪人哪个小区的房源,则该房源将展现在该小区的搜索项下。至于面积、房型、价格、楼层以及装修等参数,也都以格式化的方式来展现。因此,利用互联网爬虫等抓取技术,可以方便的将这些网站的房源抓取下来,并建立房源案例数据库。最后,是数据挖掘工作。数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。根据上述定义和描述可以发现,数据挖掘的核心是算法,而这个算法在不同的批量评估系数或产品中都不相同,算法的优劣也决定了不同系统或产品的优劣。
3.2数据挖掘方法的优点①高效无疑是数据挖掘方法的最大优点。一旦完成对算法的研究,价格估算的工作都可以交由计算机来完成。②对整体市场价格运行的反映具有较高的准确度。
3.3数据挖掘方法的缺点①对微观市场价格运行的反映可能存在较大偏差。微观市场中,例如一个住宅小区,其挂牌房源的数量就很有限了,即使规模最大的小区,也就是几百的数量级。这样大数据挖掘的数据数量前提已不满足,从而影响了对微观市场的价格估计。②批量评估的覆盖面不完整。互联网数据虽然总量巨大,但并非面面俱到。以住宅小区为例,一些体量较小的小区,或者一些远郊区域,可能无法在互联网上被搜索到。因此,基于互联网数据挖掘的批量评估势必在覆盖面上存在缺陷。
4以人工与计算机技术相结合的技术方法
房地产批量评估,尤其是涉税的批量评估对评估系统的要求主要有:全面覆盖所有物业、估价结果准确以及系统维护成本适中。根据前文对各方法的论述,单一方法很难实现上述要求。如标准价调整法若在大型或超大型城市中应用,将面临很高的运营成本;多元回归建模的更新维护周期较长,当市场出现快速波动时可能无法及时调整;基于大数据的数据挖掘在估价精度与覆盖面上都有所欠缺。总之,无论从技术上论证还是从实施效果来看,多种方法的有效结合是较为理想的,也是房地产批量评估技术的发展趋势。实践中各方法的结合已有普遍应用,并且各有巧妙,方法不尽相同。下面就几种简单的组合方式进行讨论。
4.1标准价调整法与大数据挖掘技术的组合大数据挖掘可以满足一些活跃小区的价格估算,因为活跃小区的挂牌房源较多,能满足算法所要求的数据量前提,而不活跃的小区则无法为算法提供足够的“原材料”,因此不适用数据挖掘的方法。这时就可以运用标准价调整法来弥补。按照标准价调整法的原理,在不活跃小区的临近或相似区域内设置一个标准房,经人工调研后设置标准房与不活跃小区价格的调整系数。这样在算法得出活跃小区价格的同时,可以利用预先设置好的系数一并计算不活跃小区的价格。此外,在算法可以计算的活跃小区的价格中,也有可能存在价格偏差。这时也可以应用标准价调整法的思路,设置活跃小区间的价格调整系数,来检验算法所得结果的合理性。这一组合的应用前提主要是看大数据挖掘的应用前提是否存在,即是否存在大量数据可供挖掘,因此适合房地产市场规模较大,“互联网+”比较发达的城市和地区。此外,在结合了大数据挖掘技术后,标准价调整法可以应用到大中型及以上城市,克服了其原有的一大弊端。
4.2多元回归模型与大数据挖掘技术的组合除了对人员的能力要求以及对样本数据的质量要求较高以外,多元回归模型最大的弱点在于迭代问题。市场不断变化,模型不可能一成不变,当市场发生变化并导致变量之间的关系也发生改变时,原有模型的价格预计精度必然下降,此时必须对模型进行重新构建。问题在于市场价格变化未必会导致变量间的关系也发生变化(或变化很小),或者当变量间关系发生变化时,人员主观上可能无法及时发现。当主观能够感受到变量间的关系出现变化时,往往已经有了很大的变化。此时再进行模型的迭代就已近晚了,之前的价格估算可能已经出现了错误。大数据挖掘技术可以很好地弥补上述的缺陷。大数据挖掘不仅可以直接计算某些具体变量,任何数据内在的规律和关联都可能应用大数据挖掘的方式进行探索和发现,并且能对极为细小的数值波动进行反应。利用数据挖掘的这一特性,可以建立对变量的波动监控,当波动超过一定的预设阀值即可启动模型的迭代更新。这一组合的应用前提同样取决于大数据挖掘的应用前提,除了城市规模等情况限制外,如商业物业、工业厂房等物业市场也不适用。
4.3标准价调整法与多元回归模型的组合标准价调整法往往适用于特性相近的物业,如在一个小区中设定一个标准房,再设定标准房与其他房屋的价格修正系数。在价格更新时,求取标准房价格后,即可得到小区内所有房屋的价格。但当城市规模很大时,也就是有很多小区时,必须要求取所有小区的标准房价格,如仅以人工来评估得出的话,成本非常高。此时在求取小区标准房价格方面,采用多元回归模型的方法可以极大地减少人工和时间成本。由于标准价调整法和多元回归模型都属于以人工为主的技术方法,因此理论上的应用几乎不受限制。在结合多元回归模型后,标准价调整法也可扩展应用到大中及以上城市。从上述三个组合中可以看到,原单一技术的某些弊端可以被克服,整体技术方案的适用范围和效果可获得较大提升和改进。实际研究和应用中可能有更多种的技术组合,且并不限于本文论述的主流技术方法。多种技术组合应用是房地产批量评估技术探索和创新的主要方向。
5房地产批量评估技术的选用
无论是单一技术还是多种技术方法的结合应用,房地产批量评估技术的选用依据主要是数据状况、结果的质量状况以及运行成本。数据状况主要指数据的数量和质量。就技术方案来说,侧重点有所不同。例如在多元回归模型中,对于样本案例的参数质量要求是所有技术方案中最高的;而大数据挖掘技术则对数据的数量要求最高。现实中不太会碰到数量又多质量又好的数据状况,因此在技术选用时首先需要考虑是否可以稳定获得所需要的数据。至于结果的质量状况和运行成本,很难设定一个标准线。只能根据不同的需求目的来设定质量目标,以及根据组织的投入产出效益来选择可行的技术方案。以上海城市房地产估价有限公司开发的VISS系统的运行情况来看,其在住宅物业批量评估方案中采用了标准价调整法与大数据挖掘相结合的方法,使其系统的评估精度基本控制在正负6%的误差范围,极端误差范围为正负10%。对于上海12000多个住宅小区,其价格更新周期为每月,其数据维护人员仅8-10人,每次价格更新的工作周期仅为两周。在其新研发的办公物业批量评估方案中,更是结合了标准价调整法、多元回归模型以及大数据挖掘三种方法,使其系统的评估精度可以控制在正负10%的误差范围,极端误差范围为正负15%。对于上海3000多栋写字楼物业,可以实现3个月的价格更新周期,而数据维护人员仅3人。因此,在选用何种技术方案时,主要有四个评价因素。一是技术方案所需的数据是否可以稳定获得;二是批量评估的价格精度是否满足目标需求;三是批量评估的物业覆盖面是否完整;四是批量评估的运行维护成本企业(或组织)是否可以承受。以此为标准,运用多方法结合的思路进行技术的研发和创新才是房地产批量评估技术发展的正确道路。
6结语