公务员期刊网 论文中心 正文

小议汽车保险中关联规则挖掘的运用

前言:想要写出一篇引人入胜的文章?我们特意为您整理了小议汽车保险中关联规则挖掘的运用范文,希望能给你带来灵感和参考,敬请阅读。

小议汽车保险中关联规则挖掘的运用

关联规则挖掘的步骤:(1)找出所有的频繁项集。这些项集出现的频率至少和预定义的最小支持数一样,即所有满足最小支持度的项集的集合。(2)由频繁项集中产生相应的强关联规则。根据定义,这些规则必须满足最小支持度和最小置信度。即确定规则A=>B是否有效,可以令:r=sup(A∪B)/sup(A),当且仅当r>min_conf时,规则有意义(其中min_conf为最小置信度)。(3)解释并输出规则步骤一是关联规则发现算法设计的核心问题,因为它的效率高低是算法的关键.由于Apriori关联规则算法[3]需要产生大量候选项集,资源消耗巨大,效率低。而FP-Growth关联规则算法只需扫描一次数据库,对系统资源的消耗较小,效率相对较高。因此,对于海量数据的保险信息系统,本文选用FP-Growth算法进行关联规则挖掘.

关联规则挖掘在车辆保险中的应用

1.数据准备

数据准备是数据挖掘过程的先决条件,数据质量将直接影响数据挖掘的效率和准确度以及最终规则的合理有效性。本文选取某大型保险公司省级公司近8年车险数据库数据进行挖掘。影响车辆保险的风险主要有驾驶人员、车辆状况、地理环境、气候条件、社会环境、经营管理等因素,为此研究这些因素与风险的关系,并结合实际情况和对风险的影响程度,从中选取的目标数据每条记录中包括年龄、性别、婚姻状况、驾龄、职业、车重与载货重、车型、车龄、汽车颜色、使用性质、投保险种、保费保额、汽车贷款标志、购买价格、多车所有情况、是否连续投保、投保地点、销售渠道、投保日期、出险日期、赔付率等21个属性进行关联规则的挖掘整理归纳。

2.数据离散化和去冗余

利用计算机对数据库的海量数据进行分析挖掘,需要对连续的数据作离散化工作。年龄、保额、投保出险日期、赔付率都是连续的数据。为了离散量化,根据情况和计算机编程计算的需要可将这些数据分为几类。例如,年龄分为a1(<20岁),a2(20-25岁),a3(25-34岁),a4(35-45岁),a5(>=46岁),将日期按提取数据年份年分为8年,每年具体日期按月分为12个值。将赔付率划分为[00,]、(0,10%]、(10%,30%]、(30%,50%]、(50%,70%]、(70%,100%]、(100%,200%]、(200%,300%]、(300%,+∞]九类。去除由于误操作输入产生的明显不合逻辑和业务要求的垃圾数据。

3.确定关联规则的支持度至少为35%,置信度至少为80%。进行关联规则挖掘过程如下:1)利于FP-Growth算法找出频繁项集。2)找出满足支持度和置信度的强关联规则。由于本文选取的样本属性值有21个,为了算法的简约和计算的省时,我们在实际挖掘中采用了分区挖掘产生关联规则的做法.具体做法如下:将样本属性值按驾驶员,车,环境分为A,B,C大区,每区与赔付率相关。先按A,B,C区分别进行关联规则与赔付率的挖掘,得出满足条件的强关联规则15条,然后对A,B,C三大区进行区级关联,找出区间可能有关联关系的属性,对重点属性与赔付率进行关联规则的挖掘。以上挖掘过程中,产生了许多满足条件的强关联规则:如在每年9-11月投保的家庭自用新车,在当年冬天发生车损险的概率比一般车低,这可能是由于车主对自身新车的爱护而在风雪天少开车导致的原因;已婚驾龄5年以上的司机开公务车出险的概率大大低于一般司机,显然这是由于车主经验和责任心更强的缘故。在进一步的挖掘中,我们还发现了很多意想不到的关联规则,经过分析也可以得到合理解释:贷款购买的车辆其盗抢险的发生率很低,出于车主对爱车的存放更费心和稳妥;某些车型在4S店中卖出后的赔付率比其他渠道要高,这估计是因为车主在4S店买车险后,4S店的承诺和车主自身心里更倾向于在修理价格更高的4S店维修导致赔付率升高等等。

4.规则的解释和价值衡量

得到这些关联规则后,可以从系统客观和公司主观两个层面来衡量这些规则的价值和有用性,使得到合理解释的规则可以在公司决策中发挥作用。1)系统客观层面从系统客观层面评价一条规则是否合理有价值,主要是依据支持度、置信度两个指标来衡量。我们认为支持度大于50%且置信度大于85%的关联规则是有特别价值,值得分析和关注的。对于支持度和置信度的选取我们按年份远近采取了加权计算的方法,即越接近现在的年份给的加权值越高,越有价值,分析研究的意义越大。2)公司主观层面运用数学的方法可以对一规则进行分析评价缺乏实践的证明和公司操作员工及决策层的认同,所以规则评价必须考虑到公司的主观因素。在得到一系列的风险规则后,需要在公司尤其一线操作人员中征求广泛意见和建议,在得到实践人员的合理评价后对相应的关联规则作出科学分析,这样才能最终形成有价值的公司市场决策依据。

数据挖掘技术的充分应用,不仅可以帮助保险公司对业务风险进行各种因素分析,寻求业务规律,为保险公司应对市场提供决策支持;也可以使保险公司更好的实现差异化经营,保持具有竞争力的保费和覆盖风险及提供服务之间的平衡,规避风险,挖掘更多的市场商机。(本文作者:武治国 单位:人保财险山西省分公司信息技术部)