选题背景:随着经济的发展,我国信用卡市场逐步壮大并日益繁荣。近几年信用卡逐渐成为我国居民个人消费使用最为频繁的支付工具之一。信用卡属于一种贷款,这也构成了客户对于开证银行的债务关系,所以信用卡开证行对于用户的基本信息以及对于其信用价值评估也成为了重要的一环,评估的结果可以用来分析客户的最大信用额度几何、客户是否能够成功开通信用卡业务,以及还款的时间比例等等是否合理。因此商业银行利用先进的数据挖掘技术对客户基本信息分析进行客户分类,区别不同的客户群体,然后针对不同客户群体,采取不同的发卡方式,、营销策略、风险控制举措这些举动都是十分有必要的,也是对信用卡产品获得市场份额有巨大帮助作用的。
选题意义:利用数据挖掘技术对信用卡客户进行分析的主要意义。从小的方面来说,利用数据挖掘技术对信用卡客户进行分类,不仅有利于信用卡客户关系得到系统、有序、差异性管理,还有利于银行进行有效的风险控制和风险管理。一是通过对信用卡客户的分类,银行可以针对不同客户群体,全面深入地了解客户的不同需求,并推出有针对性的特色产品,从而提高发卡率、市场占有率、客户使用率等,为银行创造更多的收益。二是通过对信用卡客户的分类,可以分析发现风险较高客户群,特别地对这类客户群的消费行为、信用状况进行监测和控制,以便可以及早发现并消除潜在的信用风险和欺诈风险。从大的方面来说,商业银行在建立有效的信用卡分类管理智能系统的基础上,充分利用数据挖掘技术强大的数据分析和挖掘能力,帮助信用卡业务管理者做出正确的判断和决策,不断创新信用卡个性化服务内容,增强信用卡产品在国内或者国际市场上的竞争力。 文献综述
信用卡作为特殊的金融商品、现代化的金融工具,是国际流行的先进结算手段、支付工具和新颖的消费信贷方式,日益受到人们的青睐。由于使用信用卡,改现金交易为转账结算,取代了一定数量的市场流通货币,减少了货币的发行量,减少了国家每年用于货币印刷、调拨、运输、仓储和投放所耗费的资金,也加快了社会流动资金周转速度,促进经济发展。信用卡还能促进商品销售,刺激社会需
求。
对于持卡人而言,信用卡的发行和使用,使持卡人通过使用信用卡获得商品和劳务服务,免除了携带大量现金的不便和风险,同时还可通过透支简便地获得银行贷款。同时贷记卡持卡人非现金交易还可以享受如下优惠条件:(1)免中国人民银行1999年3月1日颁布执行的《银行卡业务管理办法》第9页共75页浙江大学硕士学位论文数据挖掘技术在银行信用卡业务中的应用研究息还款期待遇。银行记账日至发卡银行规定的到期还款日之间为免息还款期。免息还款期最长为60天。持卡人在到期还款日前偿还所使用全部银行款项即可享受免息还款期待遇,无须支付非现金交易的利息。(2)最低还款额待遇。持卡人在到期还款日前偿还所使用全部银行款项有困难的,可按照发卡银行规定的最低还款额还款。 对于特约商户来说,由于有信用卡发卡银行的信用保证,特约商户可以放心地为持卡人提供商品和服务,从而扩大商品的销售量,并减轻收款点款工作量,简化了支付、记账和结账的过程。
信用卡的发行,使银行有了一种新的争取特约商户和信用卡客户存款的手段,有利于扩大银行转账结算业务,同时增加银行信贷资金的来源,从而获得更多的利差收入,已经成为银行的重要盈利手段。据统计,国外信用卡业务银行带来的利润一般占到银行利润的30%左右,花旗银行甚至还要高,占50%以上。美国运通公司更是凭借运通卡成为全球服务、旅游、娱乐业界的巨无霸。对于银行而言,信用卡业务的收入主要包括存款利差收入、年费、结算手续费、透支利息等。在这几项收人中,年费收入是固定不变的,普通信用卡大约20一40元一年,只要发卡就会有年费收入,其他几项收入随业务量的大小而变化,结算手续费收入随卡均消费额的变化而变化,利息收入随透支额的变化而变化。
所采用的方法:决策树算法中的CHAID算法、ID3算法、神经网络算法、以及聚类算法中的两步算法等。
数据来源:国外某家银行对于信用卡用户申请的批准。其中包括客户的年龄、工作、婚姻状况、教育程度、是否有违约、收支是否平衡、是否有房屋、是否有贷款、联系方式、还款期限、之前的透支次数、预期收入水平、银行是否批准予以其下一季信用卡的使用权等等。
数据预处理:对于年龄我们只取其十位数、工作按其行业类型分别划分为
0-10、单身已婚和离婚分别为0、1、2,教育水平按小学中学大学分为1、2、3。对于房屋、是否有贷款、银行是否批准、是否违约等中“是”用1、“否”用0代替、通讯方式无、座机、手机分别为0、1、2.收大于支取1.收小于支取0. 分析过程:对于我们处理过的数据我首先做的是特征选择。特征选择也叫特征子集选择 ( FSS ) 。是指从已有的M个特征中选择N个特征使得系统的特定指标最优化,是从原始特征中选择出一些最有效特征以降低数据集维度的过程,是提高学习算法性能的一个重要手段,也是模式识别中关键的数据预处理步骤。对于一个学习算法来说,好的学习样本是训练模型的关键。从特征选择的结果我们可以看到campaign这一项并不重要,所以我们在模型后剔除该变量,第二的default(违约行为)因为单个类别过大的原因我们也将其剔除,对于剩余的数据我们以conclusion(银行决定是否给予客户下一季的信用卡使用权)作为输出进行决策树分析。我分别采用了CHAID、神经网络、以及C.50算法结果显示他们分析结果中的正确率基本一致都在89.32%。但是相比较而言神经网络模型所给出的结论会更加可靠:因为神经网络算法对于本文所采用的数值相对准确。逻辑性的思维是指根据逻辑规则进行推理的过程;它先将信息化成概念,并用符号表示,然后,根据符号运算按串行模式进行逻辑推理;这一过程可以写成串行的指令,让计算机执行。然而,直观性的思维是将分布式存储的信息综合起来,结果是忽然间产生想法或解决问题的办法。这种思维方式的根本之点在于以下两点:1.信息是通过神经元上的兴奋模式分布储在网络上;2.信息处理是通过神经元之间同时相互作用的动态过程来完成的。所以说神经网络算法可以接受的数据类型来说离散型的数据最为适合。 CHAID 正确 错误 总计 神经网络 正确 错误 总计 4,042 479 89.40% 10.60% 4,037 484 89.29% 10.71% 4,521 4,521
从训练结果来看,对于我们的银行决策影响最大的是预期的收入水平,然后通讯方式、工作、婚姻状况、教育水平、是否有贷款和房屋等对银行决策都起重要作用但是影响率都非常小。
而收支平衡、和之前还款次数在本模型中影响力微乎其微,在我们之后的
客户聚类分析中我们不在考虑收支平衡和还款次数的作用。
在我们对于客户特点进行聚类分析后得出以下结果
从图中我们可以看到两步算法将我们的客户聚为四类,而kmeans算法中将客户分为五类。其中两步算法中的poutcom的区分度比kmeans要好的多,而且我们在上述的决策树分析中我们可以得出poutcome是影响银行决策的主要因素,因此其他的因素可以不明显区分但是poutcome必须要保证其无偏。后文将着重描述两步算法分析所得到的结果。
有图是四类的具体数值,结合上图的比例分析。客户中分类的数量按1、3、4、2逐渐的比例增加。两步算法的具体评判标准在附件中,这里不再赘述。聚类四中我们可以通过联系方式加以区分—只有这个群体中才有大多数人使用座机,聚类一可以通过是否现在就有贷款行为进行区分。聚类三可以通过是否只存在婚姻关系加以区分。聚类二通过poutcome区分。
上图是对于各个聚类中对预计收入-聚类类别的统计。从中我们可以分析出在预计收入不变的情况下聚类3、4最多、1、2其次。在预计收入增长10%的水平下人数剧减,而且集中分布于聚类2,在预计收入增长20%的人数也集中与聚类2。预计收入增长30%的水平下主要集中在聚类2. 通过以上分析我们其实已经可以看到对于预计收入来说聚类2中的人群相对于其他聚类人群来说属于未来预计潜力大的人群,可以给他们按照收入增长水平分别提供多于普通水平的透支限额。
最后,通过合并银行作出结论和聚类结果,对他们再进行分析可得: conclusion 0 计数 预期 残差 1 计数 预期 残差 聚类-1 647 聚类-2 1107 聚类-3 993 聚类-4 1253 610.4844 1213.891 990.0464 1185.578 36.51559 -106.891 2.95355 67.42159 43 265 126 87 79.51559 158.1093 128.9536 154.4216 -36.5156 106.8907 -2.95355 -67.4216
由此,我们可以将我们的客户分为四类
优质客户:聚类4他们有着最大的人口基数以及最高的通过率。 一般客户:聚类1,聚类3他们有着第二高的通过率,预测情况较好、 限制客户:聚类2,他们有着最低的通过率,但也接近了80%,不管是从模型的综合错判率来看还是从个别预测的准确率来看,模型的错判率还是比较低的,这说明信用卡客户登记分类标准比较严格,存在较少的风险,还需要进行改进和加强。
5总结
经过对整个数据挖掘过程的分析和理解,从中得出了一些有意义的结论: 1.对于国内银行业来说,飞速增长的信用卡业务将成为银行利润的重要来源,信用卡客户的营销工作也受到了越来越多的重视。由于银行营销工作面对的客户众多,竞争日益激烈等方面原因,数据挖掘技术越来越多地被应用到信用卡营销领域,并将成为支持银行信用卡市场分析和提高营销效率的重要工具。
2.客户细分的目的在于识别出具有相同属性的客户,以便针对不同属性的客户群提供不同的营销模式或是不同的管理机制。对信用卡客户的价值衡量使用以最近刷卡间隔时间、刷卡消费次数、平均每月刷卡消费金额相结合的RFM模型方法,该方法能较好地根据客户刷卡活跃度的高低对客户进行细分。
3.在进行数据挖掘分析之前,进行数据的预处理是十分必要的。因本文釆用的是实际商业银行的信用卡数据,它储存的数据不仅量大,而且存在较多的缺失值、噪声和孤立点值。
附件:对于kmeans和两步算法的结果解释 K-Means 聚类-1 1680 记录 * housing
* 0.0 (68.99%) * 0.0 68.99% 1.0 31.01% * contact
* 1.0 (78.57%) * 0.0 14.29% 1.0 78.57% 2.0 7.14% * job
* 2.0 (22.62%) * 0.0 4.58% 1.0 6.85% 2.0 22.62% 3.0 18.45% 4.0 4.88% 5.0 15.65% 6.0 4.58% 7.0 8.93% 8.0 0.6% 9.0 3.87% 10.0 8.99% * loan
* 0.0 (90.48%) * 0.0 90.48% 1.0 9.52% * marital
* 1.0 (100%) * 0.0 0% 1.0 100% 2.0 0% * poutcome * 0.0 (90%) * 0.0 90% 1.0 3.69% 2.0 4.52% 3.0 1.79% 聚类-2 498 记录 * housing
* 1.0 (53.82%) * 0.0 46.18% 1.0 53.82% * contact
* 1.0 (63.65%) * 0.0 29.52% 1.0 63.65% 2.0 6.83% * job
* 2.0 (23.69%) * 0.0 4.62%
1.0 12.45% 2.0 23.69% 3.0 10.64% 4.0 3.01% 5.0 17.47% 6.0 3.21% 7.0 13.65% 8.0 0% 9.0 2.61% 10.0 8.63% * loan
* 0.0 (83.13%) * 0.0 83.13% 1.0 16.87% * marital
* 2.0 (100%) * 0.0 0% 1.0 0% 2.0 100% * poutcome
* 0.0 (83.73%) * 0.0 83.73% 1.0 2.01% 2.0 10.04% 3.0 4.22% 聚类-3 949 记录 * housing
* 0.0 (59.01%) * 0.0 59.01% 1.0 40.99% * contact
* 1.0 (86.83%) * 0.0 6.95% 1.0 86.83% 2.0 6.22% * job
* 2.0 (26.13%) * 0.0 3.58% 1.0 9.59% 2.0 26.13% 3.0 11.7% 4.0 3.58% 5.0 22.34% 6.0 1.9% 7.0 11.7% 8.0 7.17% 9.0 1.37% 10.0 0.95% * loan
* 0.0 (89.25%) * 0.0 89.25% 1.0 10.75% * marital
* 0.0 (100%) * 0.0 100% 1.0 0%
2.0 0% * poutcome
* 0.0 (76.92%) * 0.0 76.92% 1.0 3.9% 2.0 13.38% 3.0 5.8% 聚类-4 470 记录 * housing
* 1.0 (97.23%) * 0.0 2.77% 1.0 97.23% * contact
* 1.0 (92.55%) * 0.0 0.43% 1.0 92.55% 2.0 7.02% * job
* 3.0 (28.51%) * 0.0 2.34% 1.0 7.66% 2.0 18.72% 3.0 28.51% 4.0 3.83% 5.0 16.17% 6.0 5.32% 7.0 13.4%
8.0 0% 9.0 1.7% 10.0 2.34% * loan
* 0.0 (54.26%) * 0.0 54.26% 1.0 45.74% * marital
* 1.0 (95.32%) * 0.0 3.83% 1.0 95.32% 2.0 0.85% * poutcome
* 2.0 (50.21%) * 0.0 27.02% 1.0 3.83% 2.0 50.21% 3.0 18.94% 聚类-5 924 记录 * housing
* 1.0 (100%) * 0.0 0% 1.0 100% * contact
* 0.0 (94.05%) * 0.0 94.05% 1.0 0%
2.0 5.95% * job
* 3.0 (36.58%) * 0.0 2.27% 1.0 12.23% 2.0 14.61% 3.0 36.58% 4.0 3.68% 5.0 14.07% 6.0 3.46% 7.0 9.31% 8.0 0.65% 9.0 1.41% 10.0 1.73% * loan
* 0.0 (85.93%) * 0.0 85.93% 1.0 14.07% * marital
* 1.0 (72.4%) * 0.0 24.78% 1.0 72.4% 2.0 2.81% * poutcome
* 0.0 (99.46%) * 0.0 99.46% 1.0 0.22% 2.0 0.11% 3.0 0.22%
两步 聚类-1 690 记录 * housing
* 1.0 (58.84%) * 0.0 41.16% 1.0 58.84% * contact
* 1.0 (64.93%) * 0.0 28.7% 1.0 64.93% 2.0 6.38% * job
* 3.0 (22.61%) * 0.0 2.03% 1.0 10.72% 2.0 17.39% 3.0 22.61% 4.0 4.35% 5.0 17.25% 6.0 5.94% 7.0 13.19% 8.0 0% 9.0 1.88% 10.0 4.64%
* loan
* 1.0 (100%) * 0.0 0% 1.0 100% * marital
* 1.0 (65.65%) * 0.0 21.3% 1.0 65.65% 2.0 13.04% * poutcome
* 0.0 (85.65%) * 0.0 85.65% 1.0 0.87% 2.0 10% 3.0 3.48% 聚类-2 1372 记录 * housing
* 1.0 (50.29%) * 0.0 49.71% 1.0 50.29% * contact
* 1.0 (96.87%) * 0.0 0.07% 1.0 96.87% 2.0 3.06% * job
* 2.0 (26.02%)
* 0.0 3.94% 1.0 8.89% 2.0 26.02% 3.0 13.63% 4.0 3.64% 5.0 20.92% 6.0 1.46% 7.0 11.95% 8.0 4.66% 9.0 1.75% 10.0 3.13% * loan
* 0.0 (99.93%) * 0.0 99.93% 1.0 0.07% * marital
* 0.0 (54.81%) * 0.0 54.81% 1.0 29.01% 2.0 16.18% * poutcome
* 0.0 (50.22%) * 0.0 50.22% 1.0 8.09% 2.0 30.1% 3.0 11.59% 聚类-3 1119 记录
* housing
* 0.0 (51.39%) * 0.0 51.39% 1.0 48.61% * contact
* 1.0 (100%) * 0.0 0% 1.0 100% 2.0 0% * job
* 2.0 (24.84%) * 0.0 4.2% 1.0 6.08% 2.0 24.84% 3.0 19.93% 4.0 4.38% 5.0 15.37% 6.0 4.83% 7.0 8.49% 8.0 0% 9.0 3.22% 10.0 8.67% * loan
* 0.0 (100%) * 0.0 100% 1.0 0% * marital
* 1.0 (95.44%) * 0.0 0%
1.0 95.44% 2.0 4.56% * poutcome * 0.0 (100%) * 0.0 100% 1.0 0% 2.0 0% 3.0 0% 聚类-4 1340 记录 * housing
* 1.0 (68.58%) * 0.0 31.42% 1.0 68.58% * contact
* 0.0 (83.96%) * 0.0 83.96% 1.0 0% 2.0 16.04% * job
* 3.0 (28.36%) * 0.0 3.81% 1.0 11.42% 2.0 15.97% 3.0 28.36% 4.0 4.03% 5.0 14.18% 6.0 3.96%
7.0 9.55% 8.0 1.49% 9.0 2.91% 10.0 4.33% * loan
* 0.0 (100%) * 0.0 100% 1.0 0% * marital
* 1.0 (65.52%) * 0.0 22.16% 1.0 65.52% 2.0 12.31% * poutcome
* 0.0 (97.46%) * 0.0 97.46% 1.0 0.9% 2.0 0.6% 3.0 1.04%
因篇幅问题不能全部显示,请点此查看更多更全内容