前言:想要写出一篇引人入胜的文章?我们特意为您整理了数据挖掘的电影票房分析范文,希望能给你带来灵感和参考,敬请阅读。
【摘要】在电影产业迅猛发展的今天,票房直接反映了一部电影所带来的经济效益,也是衡量一部电影成功与否的重要指标,因而对电影票房进行分析和预测来辅助电影投资和排片十分必要。本文选取了2015~2017年三年的电影数据,通过建立C5.0决策树模型,分析了类型、档期、发行公司、国家地区等八个重要因素对电影票房高低的影响,构建了电影票房预测模型。在此基础上,本文也对这些影响因素进行了关联规则分析。通过实验分析,得出了诸多有意义的结论,如制式是影响票房的关键因素。此外,结果表明,本文构建的预测模型效果良好,可将其用于电影票房预测。
【关键词】电影票房;数据挖掘;分类预测;决策树;关联分析
1引言
随着人们生活水平不断提高,我国影视行业发展迅速,成为全球第二大电影市场,同时也是增长最快的市场之一。据中国新闻出版广电总局调查显示,2017年全国电影总票房已经超过550亿[1],这说明中国电影产业有着良好的发展前景。然而,电影行业本身的高风险性和社会环境的多样性也为电影票房带来许多不确定因素,高投入低票房低收益的电影案例也屡见不鲜,如2016年上映的《封神传奇》斥资5亿,却只收获2.84亿的票房。因而,研究电影票房的预测模型和相关影响因素对电影投资和排片的决策有着至关重要的指导性作用。电影作为一种特殊的生存期短的商品,对其票房的预测难度非常大。然而,电影在制作和宣传过程中的高成本、高风险使得对电影票房的预测至关重要。吴发翔等[2]选取了2015年上映的200部国产电影作为实验数据,通过观众期待度、电影自身影响度、同期竞争力等作为预测因变量,提出了基于决策树C5.0的票房预测模型。郑坚等[3]选取2008~2010年之间192部国产电影作为数据集,提出了一种基于多层反馈神经网络的票房预测模型。王炼等[4]选取了2011年上映的211部电影进行分析,提出了基于网络搜索的票房预测模型。对比这些现有的票房预测研究[5],他们选取的数据集多为2016年之前,缺乏时效性。此外,他们并未将电影制式作为影响票房的因变量因素进行分析。基于此,本文将2015~2017三年间在中国内地上映的所有电影票房数据作为实验数据,选取了类型、档期、发行公司、国家地区、制式、导演影响力、主演影响力、同期竞争力八个影响因素,对电影票房进行了分类分析和关联规则分析,建立了电影票房预测模型。本文选取的实验数据具备很强的时效性,覆盖度广,同时创新性地选取了电影制式作为因变量影响因素,对电影票房预测模型的研究具有非常重要的意义。
2数据选择和处理
数据的选择和处理作为数据分析的重要组成步骤,会直接影响到数据分析的结果。
2.1数据选择
本文选取了2015~2017三年的电影票房数据,与其他已有的电影票房预测模型相比,具备很强的时效性和适用性。本文抓取的电影数据来源于中国票房网,中国票房网是电影票房统计官方网站,提供详细的电影相关信息,保证了数据的权威性、准确性和完整性。本文预测的目标变量为电影票房,预测的因变量为电影票房的八个影响因素(详见第3章)。
2.2数据处理
本文的数据预处理分三个部分:异常处理,如,对空数据通过其他途径得到并进行填充或者直接剔除;数据去重,对重复数据进行删除;字段处理,统一每个字段的格式和类型,仅保留有效字段。
3电影票房的重要影响因素
电影票房预测对于降低电影的投资风险至关重要。电影票房预测模型的好坏很大程度上取决于电影票房影响因素的选择。电影自身的影响力决定了这部电影的质量和口碑,而质量和口碑影响着电影的后期票房。主创团队影响力影响的则是观众对电影的期待度,这会影响电影的前期票房。基于此,本文主要从电影自身影响力和主创团队影响力这两方面出发,研究了类型、档期、发行公司、国家地区、制式、导演影响力、主演影响力和同期竞争力对电影票房的影响。
3.1类型
不同类型的电影有不同的受众群体,不同的群体又具有不同的消费水平。例如动画类电影,观影人群大多为儿童,相对其他群体来说人数较少,且消费水平较低,因此会对票房产生一定影响。本文将电影的类型通过离散化分为12类,分别为爱情、灾难、艺术、恐怖、战争、记录、动画、喜剧、科幻、奇幻、动作、剧情,分析了类型对票房的影响。
3.2档期
从某种程度上来说,档期是电影的纵向市场。一年中的不同时段,人们的观影需求和消费能力有明显差异,比如节假日通常会比非节假日的观影需求要大得多,进而影响票房。本文将数据进行了离散化处理,将档期分为5类,分别为五一档(4.27-5.10)、暑期档(7.1-9.1)、国庆档(9.27-10.10)、贺岁档(12.26-次年2.1)和其他。
3.3发行公司
好的电影发行公司一般具有专业的制作团队,先进的技术条件和雄厚的资本积累,是电影票房的潜在保障。本文对数据进行了离散化,通过调研和总结,将制片公司分为3类:好莱坞八大电影公司、中国十大电影公司和其他。其中,好莱坞八大电影发行公司包括:华纳兄弟公司、米高梅电影公司、派拉蒙影业公司、哥伦比亚影业公司、环球影片公司、联美电影公司、20世纪福克斯电影公司、迪士尼电影公司,而中国八大电影发行公司包括:中影CFGC(中国电影集团公司)、光线传媒(北京光线传媒股份有限公司)、华谊兄弟(华谊兄弟传媒股份有限公司)、博纳影业BONA(博纳影业集团股份有限公司)、上影(上海电影(集团)有限公司)、万达影业(大连万达集团股份有限公司)、乐视影业(乐视网信息技术(北京)股份有限公司)、寰亚(香港寰亚综艺集团有限公司)、安乐EDKO(安乐影片有限公司)、嘉映影业(北京嘉映文化传媒有限公司)。
3.4国家地区
各个国家和地区的电影风格各具特色,因此也会受到人们不同程度的喜爱,所以国家地区也是要考虑的因素之一。本文通过对数据进行离散化,结合不同国家和区域的电影出品特点,将国家地区分为5类:中国大陆(中国)、港台(香港、台湾)、欧美(美国、英国、法国、意大利)、日韩(日本、韩国)和其他。3.5制式近年引入的电影制式,如3D、IMAX等,其具备的立体动画和巨型屏幕会比2D电影的代入感更强,会带给观众更好的观影体验,所以被不少观众青睐。通过分析抓取到的电影详情数据,发现很多电影有多种制式,如2D和3D并存。本文选取一部电影最先进的制式(IMAX制式>3D制式>2D制式)作为离散化标准,将电影制式离散化为四类:2D、3D、IMAX和其他。
3.6导演影响力
如果一名导演自身有很高的知名度,则通常他导演的电影也将被大众所期待,对电影票房起着积极作用。本文将导演影响力作为影响电影票房的因素之一。具体地,某部电影的导演影响力可通过计算该电影的导演在此之前导过的两部电影票房总和得到。通过分析2015~2017年三年来每部电影的导演影响力,本文将导演影响力离散化为5类:很低(<100)、较低(100-1000)、一般(1000-5000)、较高(5000-10000)和很高(>10000)。
3.7主演影响力
主演是电影的主角,是电影表现力和票房号召力不可或缺的一部分。如果参演人员本身具有表演实力和一定知名度且受人们喜爱,则电影的受期待程度通常较高,对电影票房有着积极影响。本文将主演影响力作为影响电影票房的因素之一。具体地,某部电影的主演影响力可选取该电影排名前三的主演进行分析,即分别计算每位主演在此之前作为排名前三的主演参与演出的前三部电影票房总和,最后将其求和作为该电影的主演影响力。通过分析计算出的结果,本文将主演影响力离散化为4类:很低(<1000)、较低(1000-80000)、较高(80000-300000)和很高(>300000)。
3.8同期竞争力
因为观众通常会选择质量好、话题度高且性价比高的电影,因此同期其他电影的上映情况会间接对该电影票房产生影响。本文将同期竞争力作为影响电影票房的重要因素之一。本文通过计算某部电影上映前后一周(共两周)的电影票房总和得到同期竞争力,对其离散化后分为4类:很低(<50000)、较低(50000-120000)、较高(120000-200000)、很高(>200000)。
4实验与分析
本文采用IBMSPSSModeler对2015~2017三年的电影票房进行分析:用C5.0决策树[2,5,6]分析影响电影票房的因素,用Apriori算法[5,6]分析各影响因素之间存在的关联规则。
4.1分类分析
为了降低电影投资的风险,帮助投资者做出相关决策,本文对电影票房进行了预测与分析。
4.1.1决策树的构建
本文采用C5.0决策树对票房预测模型进行构建。C5.0决策树是基于C4.5开发的分类算法。由于国家地区和发行公司间存在关联性,而贝叶斯分类算法需要各因素间相互独立,因此并不适用于电影票房预测模型。此外,线性回归和神经网络预测模型适用于连续的因变量预测,且不易理解和部署,因此C5.0决策树算法更为适合电影票房的预测分析。决策树是一种树形的数据结构,其中每个非叶子节点表示一个属性,每个叶子节点代表一种分类结果。C5.0决策树算法[6]是目前最经典的决策树算法之一,根据能带来最大信息增益的特征属性来拆分样本,经过数次迭代,可生成决策树或规则集以完成分类和预测。本文采用IBMSPSSModeler数据分析软件,首先将类型、档期、发行公司等八个电影票房的重要影响因素(详见本文第3章)进行离散化,作为决策树的输入变量,同时将票房通过离散化分为5类:非常低(<1000=、较低(1000-5000)、一般(5000-10000)、较高(10000-50000)和非常高(>50000)作为决策树的目标变量,采用C5.0算法建立了决策树模型。
4.1.2实验结果与分析
该模型的准确率为76.06%,通过分析实验结果可知,电影制式对票房的影响最大,预测变量重要性高达0.39。其次是主演影响力和国家地区。而同期竞争力、发行公司是重要性最低的两个因素。在此基础上,本文将实验结果分析如下:(1)由于3D、IMAX等技术相对先进,制作成本高,因此票价比一般2D电影贵,导致票房普遍较高,这可能是制式影响票房的主要原因。其次,观众对3D、IMAX电影更有新鲜感,同时这些电影也会给观众带来好的观影体验,观影人数较多,所以票房较高。(2)除制式外,国家地区也是影响票房的关键因素之一,原因可能是大多在中国内地能够上映的国外电影,都已经在该地区内上映,并且取得了良好成绩,电影质量、口碑也相对较好。因此,国外电影在中国内地上映后能取得高票房也在情理之中。(3)发行公司是影响票房的因素中重要性最低的,这可能是因为目前国内制片公司仍然没有形成“几支独秀”的局面,即国内还没有形成像美国好莱坞一样占有绝对领先地位的制片公司或集团,因此发行公司对电影票房的影响相对较低。
4.2关联分析
为进一步梳理影响票房的重要因素之间的相关性,本文对类型、档期、发行公司等八个影响因素进行了关联规则分析。
4.2.1关联规则构建
关联规则[6]是形如的蕴含式,其中X是关联规则的条件,Y是关联规则的结果。支持度和置信度是衡量关联规则质量的重要指标。其中,支持度指的是X和Y同时出现的概率,置信度指的是X出现时,Y出现的概率。通过设定最小支持度和最小置信度,可将高于这两个阈值的关联规则作为强关联规则,进而指导决策结果。在电影票房的分析中,很多因素之间具有很强的关联性,研究其中的关联规则对电影产业的发展能够提供一定的帮助。本文采用IBMSPSSModeler数据分析软件,通过Apriori算法[6]研究了类型、制式、国家地区、档期、发行公司、同期竞争力、主演影响力、导演影响力之间的关联规则,设置最小条件支持度为20%,最小规则置信度为95%。
4.2.2实验结果与分析
通过关联规则实验,本文选择了两条最有意义的关联规则如下:(1)当某部电影的主演影响力低,在其他档期上映,国家地区为中国大陆,并由其他发行公司发行时,该电影的制式很大可能为2D(置信度98%,支持度21%)。原因可能是此类电影影响力和制作资本均不够,没有制作成更高级制式的条件。(2)当电影类型为爱情时,电影制式通常为2D(置信度97%,支持度20%)。原因可能是爱情片通常靠剧情吸引观众,通过考量各种综合因素,将爱情片制作成2D性价比更高。
5讨论
本文提出的C5.0决策树模型的准确率为76.06%,限制其正确率的原因有两点:本次采用的电影票房数据时间跨度较大,在不同时期下,人们的消费水平不同,因此票房会产生普遍的差异,对分析得到的模型准确度可能也会有较大影响。此外,对连续的数据的离散化可能也会影响实验结果。
6总结与展望
本文采用C5.0决策树算法,基于中国票房网上的数据,对2015~2017三年间的电影票房进行了分类分析,选取了类型、档期、发行公司、国家地区、制式、导演影响力、主演影响力、同期竞争力八个因素,构建了电影票房预测模型,得到76.06%的准确率,效果良好。通过对各因素之间的关联性进行分析,本文还得到了一些关联规则,如当电影类型是爱情时,制式通常为2D。然而,本文的票房预测模型的准确率由于数据和离散化的限制仍有待提升,笔者将会把下一步的工作更多地聚焦于提高模型准确率方面。一方面,笔者将研究离散化过程,同时增加票房影响因素,如网络舆情数据等。同时,笔者将探索其他预测模型,如线性回归、神经网络等,研究更适合电影票房预测的模型。
参考文献
[1]2017年中国电影票房559亿元[EB/OL].2018.
[2]吴发翔,钱佳威,刘江帆.一种基于C5.0决策树算法的票房预测研究[J].科技广场,2016(4):186~192.
[3]郑坚,周尚波.基于神经网络的电影票房预测建模[J].计算机应用,2014,34(3):742~748.
作者:席稼玮 单位:陕西省西安市高新唐南中学