商业银行基于客户行为数据的客户画像研究

2022-09-13

一、引言

近年来, 相比蓬勃发展的互联网行业, 原本发展势头迅猛的银行业遭遇严重危机, 无论从整体服务质量还是技术支撑, 银行的传统对客服务模式已经逐渐掉队。层出不穷的互联网金融产品通过网络的包装和传播, 导致原本对银行十分依赖的客户, 由于选择不断增多, 越来越倾向于将自己的资金从银行转至高收益, 低门槛的互联网金融产品中, 引发银行客户和存款不断流失。同时, 由于外部环境被不断蚕食, 导致银行业间的竞争愈发激烈, 产生大量资源内耗。面对如此恶劣的竞争环境, 银行需要打破常规思维, 充分利用互联网思维对现有服务模式进行优化改革, 在客户对服务供应商的服务质量要求不断增高的现状下, 利用更贴近互联网的模式来维护客户、吸纳客户。

目前我国大型商业银行为了维护客户、管理客户, 都研发了基于客户属性的客户关系管理系统 (Customer relationship management) , 简称CRM系统。系统中通过客户基本属性和其存款金额、理财金额等指标, 综合评定客户在银行的贡献度, 并根据贡献度的不同, 为客户提供定制化服务, 如图1。

但银行CRM系统具有以下不足:

(1) 银行客户除存款、购买产品之外, 也通过银行完成其他业务, 比如业务咨询, 浏览银行资讯, 查看账户余额变动等, 这些客户主动发起的行为没有纳入CRM系统管理, 而这些行为的产生, 意味着客户对于银行产品或服务存在黏性, 具有潜在价值;

(2) 相对互联网的营销模式, 银行的营销费用相对比较少, 在有限资源的限制下, CRM系统一般只能针对综合贡献度较高的客户提供专属服务如配置客户经理等, 对于低贡献度的客户往往仅提供最基础的通用服务, 更无法针对不同类型客户做出差异化服务;

(3) 银行CRM系统不具备数据分析能力, 仅根据一定的算法对客户资产等信息进行加权打分, 不适应目前的大数据时代趋势。

综上, 商业银行除现有传统的客户贡献度评分机制之外, 需要增加基于客户在银行产生的行为数据的收集和分析, 这样可进一步完善客户在银行系统中的特征值, 进而通过针对性营销策略, 使客户在银行产生更大价值, 最终增加银行收益。

二、基于K均值聚类算法的计算过程

聚类 (Clustering) 是指将样本数据划分为多个类别, 在同一个类别中, 对象之间具有较高的相似度, 而不同类别中, 对象之间的差异较大。而相比其他聚类算法, 不需要使用训练数据进行学习的K均值聚类算法更加快速、高效, 特别是针对海量样本数据, 准确性更高。

随着银行功能的不断丰富, 在客户使用银行App的过程中, 会产生大量客户行为记录, 而由于银行客户数量庞大, 故每天银行都会产生海量数据。这些数据由于彼此之间无法直观看到规律和关系, 利用传统的数据库处理技术仅能实现基本的查询和统计功能, 但无法实现对数据内在联系的分析和挖掘, 无法有效利用客户行为数据所产生的潜在价值。而聚类算法的目标就是将海量数据通过算法进行归类, 形成若干类别, 其同类别的数据具有高度相似性, 而不同类别的数据之间具有明显的差异性。其中K均值聚类算法由于其效率高, 需要的条件较其他算法来说相对宽松, 所以尤其适合面对银行海量客户数据作为归类的算法, 如图2。

(一) K均值聚类算法

K均值算法是迭代类聚类算法, 在计算过程中一般采用欧式距离作为对象之间的相似性指标, 每个类别用聚类中心来描述, 聚类目标是使得各个类别的聚类平方和最小, 即最小化:

结合最小二乘法和拉格朗日原理, 聚类中心为对应类别中各对象数据点的平均值。为了使算法收敛, 在迭代的过程中, 最终的聚类中心应尽可能不变。

K均值算法输入条件为待聚类数据和预先设定的类型个数K。其中类型个数K的设定需决策者相对准确把握, 不适当的k值可能使聚类结果产生偏差。K均值聚类算法首先随机选取K个点作为初始的聚类中心, 然后分别计算所有数据与每个聚类中心的距离, 并将样本数据中每个对象归入距离聚类中心最近的类别中。经过第一次迭代归类后, 算法将重新计算每个类中所有数据位置的平均值处作为新的聚类中心并重新计算样本数据到各个聚类中心的距离, 再次进行迭代计算, 直到相邻的两次聚类过程迭代完成后, 聚类中心不再变化, 这时说明K均值聚类算法的准则函数已经收敛, 即基于K均值聚类算法归类完成。

算法计算流程如下:

(1) 在样本数据中选取K个对象, 其中每一个对象对应一个聚类中心;

(2) 通过计算全部样本数据中的每一个对象到K个聚类中心的欧式距离, 并将其划分到距离某个聚类中心最近的类别中;

(3) 将全部对象归类后, 计算每个类别中样本数据的平均值, 该平均值即为更新的聚类中心, 直至K个聚类中心均更新;

(4) 判断更新后的聚类中心和原聚类中心的距离是否存在偏移, 如果出现偏移, 则回到2) 重新计算, 直至聚类中心不再变化, 认为算法已完全收敛, 输出结果。

(二) K均值聚类算法的局限性

K均值聚类算法由于其原理简单, 适用范围较广, 所以该聚类算法已广泛用于各种行业的数据统计和分析当中, 但其局限性也比较明显:

(1) K均值聚类算法对初始K值比较敏感, 而业界也暂无可彻底解决K值预估不准确的方案, 由于一般场景K值的取值范围较小, 企业可通过历史经验设置若干个初始K值, 并通过分别运行聚类算法并分析其结果来确定哪个K值对企业来说是相对准确的。也可在企业可接受的预估类别总数中通过枚举, 如令K从2到10, 使用每个K值重复运行K均值聚类算法, 并计算当前K值的平均轮廓系数, 最后选取轮廓系数最大的K值作为最终的初始聚类个数。

(2) K均值聚类算法对于离群点 (数据点和绝大部分数据点位置相差较远) 的敏感性较高, 如样本数据中包含离群点, 将导致聚类中心点可能出现偏移。在数据加工时需要对明显离群的个别数据进行调整或删除, 保证聚类结果的准确性。

(3) 由于K均值聚类算法的复杂度取决于输入数据的复杂度, 对于复杂的样本数据, 可能导致聚类复杂度偏高, 迭代次数较多。

(4) K均值算法无法保证结果收敛于全局最优, 其常常终止于一个局部最优解, 一般解决局部最优的方式是选取不同的初始值并多次运行算法。

三、K均值聚类算法实验过程

在对数据进行K均值聚类算法分析时, 为保证实验过程准确, 需首先对实验方案进行设计。经过方案分析和研究, 形成数据分析流程图, 如图3。

(一) 数据准备

App中产生的每一个客户行为一般都是在数据表或文件中单独存储的一条数据, 海量的数据往往伴随着错误、异常或重复等无效数据, 这些数据在实验数据中会干扰正常的数据分析, 甚至导致分析中断。故在进行数据加工之前, 需要人工将明显异常或错误的数据从样本数据中剔除, 保证实验结果的准确性和稳定性。

(二) 样本数据指标确定

对于银行来说, 不是所有的客户行为都具有分析价值。主要原因有:

(1) 对于总体访问量过小的功能, 可能会对聚类算法结果产生影响;

(2) 过多的指标将增加聚类算法的复杂度, 降低其准确性;

(3) 银行对某些关键指标的关注度较高

故在进行数据加工前, 需要针对原始数据中较为重要的客户行为指标进行提炼, 如App的启动、功能的访问以及信息接收等关键行为需要保留, 而一些不重要的行为数据如客户对功能的连续点击和非核心功能的访问等行为数据则可以剔除。本实验中, 将保留8项关键指标, 分别为:客户行为次数、App启动次数、接收账务消息次数、点击推送启动App占比、切换页签次数、访问银行功能次数、接收银行资讯类消息次数和浏览资讯次数。

(三) 数据加工

由于实验是基于客户维度的聚类分析, 而原始数据中并没有明确的维度, 只是海量数据的汇总, 所以在进行聚类分析之前, 需要将原始数据按照客户维度进行加工和整合, 形成以单一客户为主键的客户行为统计表。本实验在原始数据中随机抽取100位客户在7天内的行为记录作为执行数据分析的样本数据。

(四) 聚类分析过程

经过对市面的数据统计工具进行对比试用, 本实验采用IBM SPSS Statistics 19.0软件完成聚类分析。SPSS软件的分析结果清晰、直观, 而且可以直接读取Excel等数据文件。该软件中已经集成了K均值聚类算法, 可以快速完成K均值聚类分析并直观显示分析结果。

由于聚类分析需要输入聚类个数K, 而对于银行决策者来说面对毫无关联的海量原始数据, 并无法明确K的合理个数, 故需要针对K的取值范围进行人工分析。在业务层面预估客户分为多少个类别可满足目前的实际需要, 必要的话可尝试用不同的K值进行聚类分析, 并比较结果之间的差异, 直至当前聚类结果能明确显现出同一类别数据相似, 不同类别数据差异性大的显著特征。过多或者过少的K值均会导致聚类算法无法准确将数据精准区分开。对于样本数据, 结合实验及人工分析后, 本实验确定设置聚类个数K值为3, 即期待K均值聚类方法能将样本数据区分为三个不同类别。经过软件计算, 得出聚类结果如图4、图5:

其中图4可以看出聚类算法将100位客户行为数据分为三类, 其中第一类人数为5人, 第二类人数为82人, 第三类人数为13人。而图5代表每一类别的具体行为特征数据, 这三类数据之间可以直观看出属性间的差异较大。

(五) K均值聚类算法结果分析

经过图5的数据可以直观看出, 通过K均值聚类算法的分析结果, 样本数据中的100人具有三种行为特征:

第一种客户在该银行App中接收账务变动消息数量非常多, 而对于App的其他功能访问量很低。

通过数据分析结果, 可以将该类客户描绘为:对于客户来说, 银行的App只起到接收账务信息提醒的单一作用, 客户并不关注银行App中的其他功能。这类客户对推送的账务信息关注度高, 故在客户画像中可将客户进行营销归类, 在后续的针对性策略研究上, 可利用客户关注账务信息的习惯, 采用在账务变动消息上通过技术手段增加额外的营销信息, 以提升客户对营销内容的关注度, 逐渐引导客户使用除账务提醒之外的其他银行功能。

第二种客户在该银行App中各项行为均很少, 属于“潜水”型客户, 这类客户由于在App中没有明确的诉求, 所以极易流失。但通过聚类结果发现此类客户通过点击消息推送启动App的概率为63.8%, 这意味着100人中有近64人在接收到推送消息后会启动App查看内容, 所以在营销策略方面, 这类客户适合利用该特征, 加大投入成本, 以优惠促销活动或吸引客户的文案等形式来给这类客户进行消息推送, 引导客户通过参加促销活动获取一定的收益, 同时潜移默化使客户逐渐了解和使用银行功能, 促进客户活跃度。

第三种客户通过聚类分析结果来看, 无论功能访问还是资讯接收, 都比较稳定, 且通过点击推送启动客户端的比例也较高, 因为聚类使用的指标均为银行关注指标, 故这类客户可以认为对App存在一定的依赖程度, 属于银行App的优质客户。由于这类客户属于银行App的忠实客户, 所以银行App可适当降低营销投入, 通过正常的功能更新和资讯推送即可留存这部分客户。

在将样本数据分类的同时, 由于K均值聚类分析同时显示了三类客户的分布比例, 我们也可以在数据分布上看出这三类客户占全部客户的比例, 如图6。

通过图6, 可以清晰地看出三类客户的人数比例分布, 通过将客户分类, 并针对不同行为类型的客户进行精准营销, 逐渐降低“潜水”客户比例, 并将“单一功能使用者”转化为优质客户, 最终将大幅改善优质客户在全部客户中的占比, 提升银行App客户黏性, 促使客户在银行产生更大价值。

四、结束语

商业银行在互联网时代如何提升竞争力, 是一个迫切需要解决的问题。对于银行来说, 相比互联网企业, 其拥有的数据更多、更可信, 也更加优质, 但商业银行却始终存在不会使用数据的情况, 数据丰富而使用无方的现状使得银行面对互联网产品的竞争而屡战屡败。

利用数据挖掘中的K均值聚类算法对银行客户行为数据进行分析, 并指出通过K均值聚类算法, 可以基于客户的行为数据而将同类行为客户进行类别划分, 在银行掌握客户基本属性的基础上补充客户在银行的行为习惯, 由于客户的行为数据是脱离客户金融属性的, 故可使银行摆脱现有的基于客户贡献度的传统CRM系统束缚, 采用客户行为数据+金融属性两方面同时对客户进行细分, 进一步提升了银行对客户的精准画像, 并利用客户画像完成针对客户的精准化营销, 提升银行产品销售业绩, 同时最大化留存客户, 使之持续为银行提供价值。

摘要:研究银行客户在使用银行软件产品时产生的行为数据规律, 通过数据分析, 发现客户行为规律并将其进行归类。由于面对大量客户行为数据, 通过人为观察无法根据客户行为进行系统分类, 经过算法对比, 决定采用K均值聚类算法对数据进行聚类分析。经过K均值聚类算法分析之后形成的行为类别, 可进一步完善客户在银行的客户画像系统, 便于银行有针对性的进行精准营销和行为预测。文章采用某银行手机App中预先设置的客户行为埋点数据作为实验数据, 通过K均值聚类分析, 将海量客户行为数据归为若干特征类型, 将同类型行为特征的客户设置为一类标签, 为后续银行决策者提供有效的营销参考, 可提升银行服务品质和客户商业价值。

关键词:商业银行,客户行为,聚类算法,客户画像

参考文献

[1] 王荇, 李彗.基于聚类的客户细分方法研究[J].电脑知识与技术, 2008 (s1) :122-123.

[2] 王振东.聚类算法及其在客户行为分析中的应用研究[D].北京:北京邮电大学, 2008.

[3] 于上上, 陈璐, 孙璐, et al.银行数据挖掘的运用及效用研究[J].计算机光盘软件与应用, 2014 (6) :25-26.

[4] 周爱武, 于亚飞.K-Means聚类算法的研究[J].计算机技术与发展, 2011, 21 (2) :62-65.

[5] Kanungo T, Mount D M, Netanyahu N S, et al. An Efficient k-Means Clustering Algorithm:Analysis and Implementation[J].IEEETransactionsonPatternAnalysis&Machine Intelligence, 2002, 24 (7) :881-892.

[6] Bradley P S, Fayyad U M. Refining Initial Points for K-Means Clustering[C]//Fifteenth International Conference on Machine Learning. 1998.

本文来自 99学术网(www.99xueshu.com),转载请保留网址和出处

上一篇:浅谈新常态经济下我国本土企业如何发展对外贸易下一篇:经济状况对农村老人居家养老服务需求的影响