面向在线社交网络的企业管理决策研究
上QQ阅读APP看书,第一时间看更新

2.4 基于评论行为的客户购买次数预测

图2-4 整体分析框架

本节从个体层面进行客户终身价值的计算,首先对购买价值进行计算。第一步先构建Logit回归分析模型进行影响客户购买流失的影响因素分析并利用Logit模型进行客户购买流失行为预测;第二步将找到的关键变量作为协变量引入Pareto/NBD模型中,改进客户的购买次数预测。具体分析框架如图2-4所示。

2.4.1 Logit回归模型预测客户购买流失

1.Logit回归模型概念框架

消费者当前的行为表现会间接反映出消费者下一阶段的购买可能性大小,可作为判断消费者下一阶段是否会产生购买流失的重要依据。消费者的评论行为会潜在地增加用户的黏性。大众点评网在创立之初就是依靠海量的用户评论来增加用户黏性,继而在2010年推出了团购业务,这些海量的用户群体帮助大众点评网在短时间内打开了其在一线城市上的团购业务,快速抢占了团购市场的领导地位。目前已有研究者从两个方面来考虑影响消费者购买流失行为的因素,分别为消费者自身因素和消费者当前购买行为。

针对用户自身因素,已有研究者考虑人口统计学特征对用户购买流失行为的影响,将其引入用户购买流失的预测模型中,例如,朱帮助、张秋菊(2010)在进行用户购买行为预测时引入了客户性别、客户年龄、婚否、教育程度、年收入这5个人口统计学特征因素;王志君(2013)将用户类别、用户职业作为关键属性引入用户流失预测模型中;曹国、许娟、沈利香(2012)利用RFM模型和人口统计变量建立了多维商业银行客户流失预测模型,发现性别、年龄均对客户流失具有显著影响;任剑锋、张新祥(2012)将客户年龄、客户性别、年收入引入客户购买流失预测模型中。

针对用户前期购买行为,已有研究者考虑了RFM模型所涉及的指标以及其他购买行为特征对用户购买流失行为的影响,将其引入用户购买流失的预测模型中,例如,王志君(2013)在研究影响用户购买流失行为时考虑了RFM模型所涉及的3项指标,即总购买金额、总购买频次以及最晚购买时间,同时也考虑了其他购买行为特征,诸如用户基础积分、分阶段购买金额及数量等;曹国、许娟、沈利香(2012)采用最近购买时间间隔、交易总金额和交易频率来预测用户购买流失;任剑锋、张新祥(2012)将购买金额、重复购买次数、白天购买次数、晚上购买次数引入流失模型中;朱帮助、张秋菊(2010)等将重复购买次数、最后购买时间、购买金额、白天购买次数、晚上购买次数、深夜购买次数引入流失模型中。表2-16所示为整理后的用户购买流失行为的影响因素。

表2-16 用户购买流失行为的影响因素

我们在此基础上引入消费者的当前评论行为,重点研究消费者自身评论行为是否会对用户的购买流失产生影响以及是否能够提高用户购买流失的预测准确性。因此,本节提出的概念模型框架如图2-5所示,其中,消费者当前的购买行为和当前评论行为为自变量,消费者下一阶段的购买流失行为为因变量,消费者自身因素为控制变量。

图2-5 概念模型

2.Logit回归模型建立

1)基本模型

为了了解消费者当前购买行为、消费者当前评论行为和消费者自身因素对用户下一阶段的购买流失行为影响,建立更加精准的流失预测模型,本文建立了基于用户购买流失行为的Logit回归分析模型,采用大众点评网的数据(dianpin.com)进行分析和研究。

本节模型是为了着重研究消费者的评论行为是否会影响其下一阶段的购买流失行为,以便更精确地预测用户购买流失,因此,模型的因变量是消费者的购买流失行为,该变量只有流失和未流失两种情况,可分别用1和0来表示,是一种二值变量;该模型的自变量包含消费者当前阶段的购买行为和当前评论行为,控制变量为用户自身因素,该模型是一种二值响应模型。根据对计量经济学中建立二值响应模型的几种方法以及对类似研究文献中所采用模型的参考(Gujarati和Poter,2011;Lee等,2011),我们选择了Logit模型作为模型建立的基本形式。

Logit模型的基本形式是

其中,Pi代表了被测变量值为1的概率,Pi/(1-Pi)则代表了被测变量为1的机会比率。可以证实,随着Li的值从-∞变化至+∞,Pi的值会从0变化到1,且PiLi之间存在非线性关系,那么PiXi之间也存在非线性关系,这就满足了我们对分析模型的要求。Logit模型的以下几个特点使其能够为本文的后续分析提供较好的分析效果:①随着Li的值从-∞变化至+∞,Pi的值会从0变化到1;②虽然LiXi的线性函数,但概率本身PiXi之间存在的是一种非线性关系;③模型可以根据应用的需求增加变量或回归元的数量。

消费者购买流失模型是用于对消费者购买流失进行影响因素分析及预测的模型。该模型的因变量为用户下一阶段的消费者流失情况(Churnit)。该模型的自变量包括消费者当前购买行为以及消费者当前评论行为,消费者的自身因素为模型的控制变量。消费者的购买流失预测模型的基础公式为

其中,Churnit代表用户i在下一阶段的流失概率,是一个二分变量;Purchaseit-1是用户i在当前期的购买行为信息,例如购买金额、购买次数等;Commentit-1是用户i在当前期的评论行为信息,例如评论次数、评论累计贡献等;Useri作为控制变量是用户i的基本信息,例如用户的性别、年龄等,该信息可以在大众点评网点评平台上提取。γδβ是三类自变量的系数,εijt-1则是随机误差项,它代表了因变量模型中所未能表示出来的潜在影响,它满足εijtN(0,φ的假设。

2)模型变量设计及统计

随机选取了大众点评网在2011年1月1日至2011年6月30日期间产生团购行为的消费者,提取了这些消费者在2011年1月1日至2011年6月30日在大众点评网产生的购买行为、评论行为及人口统计学特征数据,作为自变量;选取了2011年7月1日至2011年9月30日这些用户的团购次数,同时认为在这三个月内消费者未产生团购行为,即认为产生了购买流失,记为1;产生了团购行为,即认为未产生购买流失行为,记为0。最终,我们选定了921名大众点评网消费者,提取了这些用户的团购数据和评论数据,自变量和因变量的提取时间划分如图2-6所示。

图2-6 自变量、因变量提取期

(1)模型因变量

大众点评网的数据能够统计消费者在一段时间内的所有购买记录,包括购买的次数、金额、购买店铺信息等,这使得我们对消费者的购买流失行为的研究成为可能。依据所建立的基本模型,将用户在下一阶段(三个月)的购买流失行为作为因变量。模型因变量的列表如表2-17所示。

表2-17 模型因变量描述

同时将消费者下一阶段(2011年7月1日—2011年9月30日)的购买流失行为用Churnit表示,是一个虚拟变量。若用户it时间内产生了购买行为,则定义Churnit的值为0;否则即认为产生了购买流失。

(2)模型自变量

我们将实证模型中所用到的自变量划分为消费者当前阶段购买行为和评论行为两个维度。模型自变量的列表如表2-18所示。

表2-18 模型自变量描述

自变量的计数周期均从2011年1月1日至2011年6月30日,由大众点评网提供。消费者的购买行为包括9个变量,分别为累计消费金额(用Gmit-1表示)、购买最大金额(用Gm_topit-1表示)、购买次数(用Gfit-1表示)、最后购买时间(用G_lasttimeit-1表示)、第一次购买时间(用G_firsttimeit-1表示)、工作时间段购买次数(用G_worktimeit-1表示)、凌晨购买次数(用G_midnightit-1表示)、白天购买次数(用G_dayit-1表示)和晚上购买次数(用G_nightit-1表示)。

消费者的评论行为包括7个变量,分别为累积评论贡献值(用Cmit-1表示)、评论最高贡献值(用Cm_topit-1表示)、评论次数(用Cfit-1表示)、工作时间段评论次数(用C_worktimeit-1表示)、凌晨评论次数(用C_midnightit-1表示)、白天评论次数(用C_dayit-1表示)和晚上评论次数(用C_nightit-1表示)。

(3)模型控制变量

实证模型中的控制变量为消费者的自身因素,模型自变量的列表如表2-19所示。

表2-19 模型控制变量描述

根据大众点评网人口统计特征因素的提供情况,认为消费者自身因素包括三个变量,即消费者的性别(用Genderi表示)、年龄(用Agei表示)以及对网站的整体贡献值(用Contributioni表示)。其中,用户年龄(Agei)及用户性别(Genderi)两个变量的值皆来源于用户在大众点评网上所填写的个人资料;网站的整体贡献值(Contributioni)来源于大众点评网对用户行为的评分值。

(4)购买流失预测模型——未考虑评论行为模型构建

我们首先提出仅考虑消费者自身因素和消费者购买行为的购买流失预测模型。通过综合考虑电子商务客户流失各种影响因素,参考国内外电子商务客户流失相关文献,并考虑解释变量数据的可获得性,最终确定出性别、年龄、消费者贡献值、购买金额、最高购买金额、购买次数、最后一次购买时间、第一次购买时间、工作时间段购买次数、白天购买次数、晚上购买次数以及凌晨购买次数12个指标作为本研究的待选解释变量。

(5)购买流失预测模型——综合考虑评论及购买行为模型构建

接下来引入消费者评论行为,综合考虑消费者自身因素、消费者购买行为以及消费者评论行为的购买流失预测模型。基于式(2-3)涉及的变量,进一步提出了包括累积评论贡献值、评论最高贡献值、评论次数、工作时间段评论次数、白天评论次数、晚上评论次数、凌晨评论次数共计19个指标作为解释变量的综合模型,具体模型如式(2-27)所示。

3.模型分析结果

1)模型检验

在构建购买流失预测模型之前,首先要进行变量间的多重共线性检验,即通过VIF因子分析进行判断,若VIF>10,则说明变量间存在共线性。通过表2-20可以发现购买次数、白天购买次数、白天评论次数、工作时间段评论次数、累计评论贡献值、评论次数和工作时间段购买次数的VIF均大于10,变量间存在共线性。因此为了消除变量间的共线性,同时得到影响消费者购买流失的核心变量,接下来采用逐步回归的方法进行变量处理与筛选。

表2-20 VIF因子分析

2)结果分析

(1)训练集结果分析

我们将数据集按8∶2的比例对总体样本进行训练集和验证集的划分,其中训练集有737名用户,包括产生购买流失的用户258名,未产生购买流失行为的用户479名;验证集有184名用户,包括产生购买流失的用户62名,未产生购买流失行为的用户122名。在进行逐步回归后具体分析结果如表2-21所示。

表2-21 模型结果——训练集

注:∗p<0.1,∗∗p<0.05,∗∗∗p<0.01。

表2-21表示训练集的Logit回归模型分析结果。其中,模型一表示式(2-26)经过逐步回归后的因素影响结果;模型二、模型三表示式(2-27)经过逐步回归后的因素影响结果。通过对模型一的结果进行分析发现当仅考虑消费者自身因素和当前期购买行为时,消费者性别(=0.556 6)、购买最高金额(=0.001)、最后一次购买时间(=0.009 3)以及购买次数(=-0.300 9)会显著影响消费者下一阶段的购买流失情况。

其中,消费者的最高购买金额(γ2Gm_topit-1)对于用户的购买流失有显著正向的影响。这说明消费者之前的最高购买金额越高,消费者在下一阶段的购买流失可能性也会越大。而消费者的购买次数(Gfit-1)对于用户的购买流失有显著负向的影响。这说明消费者之前的购买次数越多,对网站的使用黏性越大,消费者在下一阶段的购买流失可能性就会越低。消费者最后一次购买时间(G_lasttimeit-1)对于用户的购买流失有显著正向的影响。这说明消费者最后一次购买时间距分析时间点的时间间隔越长,消费者在下一阶段的购买流失可能性会越大。

通过对比模型二和模型三则发现综合考虑用户自身因素、当前期购买行为和当前期评论行为时,单纯引入消费者评论次数并不能显著影响消费者在下一阶段的购买流失行为,但是当引入用户购买次数和评论次数的交叉项时,消费者在点评平台的评论次数对于下一阶段的购买流失影响就从不显著变为显著了,这说明消费者评论次数对下一阶段购买流失的影响依赖于用户在团购平台的购买次数。具体而言,消费者评论次数对下一阶段用户购买流失的综合影响为-0.005(综合影响=单独影响系数+交叉项影响系数×购买次数均值),即评论次数越多,消费者在下一阶段越不容易产生购买流失。这一结论很好地证明了点评平台对于团购平台存在影响。

综上所述,最终构建了用户购买流失预测模型,具体如式(2-28)所示。

即用户的性别、最高购买金额、购买次数、最后一次购买时间、评论次数以及评论次数与购买次数的交叉项会对下一阶段的消费者购买流失行为产生影响。

(2)模型预测准确度对比

目前,对流失预测结果进行评价最直接的方法就是利用量化了的标准来进行评价(介绍命中率的文档),我们采用预测的命中率作为评价标准。如表2-22所示,A表示预测流失事实上也流失的用户数;B表示预测不流失但实际上却流失的用户数;C表示预测流失但实际上却不流失的用户量;D表示预测不流失实际上也不流失的用户数。从表中可以看出,有两部分的数据量是预测成功的,即A类和D类。

表2-22 流失预测评价矩阵

根据如表2-22所示的流失预测评价矩阵,可以得到预测命中率公式为:

基于此,我们将模型一仅考虑购买及用户自身因素的模型预测结果与模型三综合考虑三方面因素的模型预测命中率进行对比,发现对于训练集和验证集而言,模型三对购买流失行为预测和购买未流失行为的预测的命中率均有了提高,具体结果如表2-23所示。

综上所述,通过分析可以发现消费者当前的评论行为会对该用户下一阶段的购买行为产生影响,同时引入评论行为的用户购买流失预测命中率也有了提高。但是由于样本数据较小,使得预测效果的提升度并不是很高。因此,我们采用十重交叉验证的方法来对模型的稳定性进行验证。

表2-23 预测命中率对比

(3)十重交叉验证

由于所使用的数据集较小,因此采用适合小样本的十重交叉验证方法进行进一步的模型验证。具体方法如下:首先将训练集中的流失样本(258名)和非流失样本(479名)分别划分为10份,前9份每份包含74个样本,最后一份包含71个样本;第二步分别将9份样本当作训练集,一份样本当作验证集进行Logit回归模型的建立,最终得到10个模型;第三步将这10个模型分别带入10份验证集中,可以得到每个模型的错误率,最终求平均,得到整体训练集合的平均误差率;同时将这10个模型带入验证集中,同样可以得到每个模型的错误率,最终求平均后得到整体验证集的平均误差率。最终结果如表2-24所示。

表2-24 十重交叉验证

通过表2-24所示,采用十重交叉验证方法分别对模型一和模型三的训练集和验证集进行分析,得到的平均错误率均与原始错误率差距很小,说明建立的购买流失行为预测模型具有一定的稳定性。

2.4.2 Pareto/NBD模型预测客户购买次数

1.Pareto/NBD预测模型

1)模型定义及基本假设

Pareto/NBD模型是由Schmittlein等(1987)提出,主要是用于描述非契约客户关系情景下客户重复购买行为的模型。模型主要是用来以概率模型求出预期购买次数和客户活跃度P(active)。在模型中假设客户未来产生的多次购买行为的时间是任意的,客户可以很自由地实施购买行为。并且客户流失也是随机概率事件,事先不能够知道这些客户是否流失、何时流失,所能了解到的就是该客户在观察期内没有再次发生购买行为。运用模型Pareto/NBD模型之前,本文首先对模型本身适用所应具备的条件做了一下分析。

Pareto/NBD模型的提出基于以下5个基本假设。

(1)客户个体重复购买交易过程可以用泊松分布描述,用λ表示个体客户的长期的重复购买率,在客户活跃的情况下,某一个体客户在时间t内发生x次交易的概率为

(2)购买率λ在不同客户中服从ɡγα)分布,其中,γα为分布参数。

参数γ是描述客户间交易率差异性大小的指标,γ值越大,客户间交易率的差异性就越大,反之亦然。

(3)客户个体从首次购买到离开企业的时间服从流失率为μ的指数分布。

(4)不同客户间的流失率μ服从ɡsβ)分布,其中,sβ为分布参数。

参数s是客户间流失率差异性大小的指标,s值越大,客户间流失率的差异性就越大,反之亦然。

(5)客户购买率λ和客户流失率μ独立。

假设一中的建模对象是客户个体重复购买次数,即若用户在一天内的购买次数超过一次,则重复购买次数仍按一次计算。大实证发现(Morrison,1988)证明Pareto/NBD模型刻画“次数”比刻画“量”更有效,深层原因在于服从泊松分布的事件单位时间内出现两次及其以上概率可忽略不计,因而本文选择刻画客户个体重复购买次数。

假设三使用了经典的寿命分布——指数分布用于刻画个体户生存时长,假设二和四分别使用伽玛分布刻画用户间行为上存在的异质性,由于伽玛分布的概率密度曲线形状灵活多变,因而能较好体现用户间购买率和流失的差异。

2)参数估计

我们采用最大似然方法进行参数估计,在全样本数据上估计Pareto/NBD模型的参数αβγs。对于任意个体用户,如果客户在(0,T)内发生x次重复购买,最后一次交易时间txT,则其未流失的概率为

αβ时,

αβ时,

依据模型,利用目标客户的购买数据对客户的活跃度进行计算,根据计算结果可以得到目标客户的活跃情况,这可以作为企业实施后续工作的参考依据。企业可以根据客户活跃度值的大小情况,选择不同的营销策略,对客户实现差别对待。从任意个体用户似然函数可知,模型需要估计的参数为:αβγs,而估计这些参数所需的输入数据集为(xt xT)。这三个变量的含义分别为:x为观察期内个体用户重复购买次数;tx为观察期内个体用户最近一次购买时间;T为观察期时长。假设本文选取的样本中有N个用户,则这N个用户的似然函数对数值总和为

当该似然函数对数值总和取得最大值时,即可求得对应的4个参数值。

3)模型预测公式

我们使用个体用户购买次数期望值、活跃度、购买次数的条件期望值三项预测值,并通过这三项预测值检验模型效果,各项预测值的计算公式如下。

(0,t ]时刻内,个体用户重复购买次数期望值的计算公式为

活跃度是指观察期T时刻末用户仍然“存活”的概率,计算公式为

用户购买次数的条件期望值是指具有(xt xT)历史行为的个体用户在(TTt]时刻内的购买次数期望值,计算公式为

利用Matlab 7.0软件实现模型的参数估计和个体用户购买次数期望值、活跃度、购买次数的条件期望值的预测。

2.Pareto/NBD实证研究

1)数据提取

数据来源是大众点评网2011年1月1日到3月31日共90天上存在购买行为的用户,共涉及519名目标用户。选取2011年1月1日至2011年6月共181天作为观察期,2011年7月1日至9月30日共92天作为验证期。针对目标用户的id,我们在观察期中共提取出3 881条购买数据,在完成对同一用户在一天内发生的多次购买行为的处理工作后,得到了3 458条(xt xT)的数据集,同时将目标用户初次购买的天数定为0。具体的建模过程如图2-7所示。

图2-7 样本数据获取

样本包括以下数据。

x:表示个体用户在2011年1月1日至2011年6月30日共181天的重复购买次数。单位:次。

T:表示用户初次购买时间与观察期截止时间(2011年6月30日)的间隔。单位:天。

tx:表示在[0,T]时间段内,用户最后一次购买的时间。单位:天。

例如,对于2011年1月1日初次购买的用户,T=181。如果这名用户在观察期内的最后一次购买行为发生在2011年1月30日,那么tx=30。

X2:表示用户在2011年7月1日至2011年9月30日重复购买的次数。单位:次。

2)结果分析

(1)模型参数预测结果

本文使用最大似然估计法对Pareto/NBD模型进行参数估计,并选择Matlab 7.0作为参数估计及预测的工具,通过在Matlab 7.0中编写程序,计算出样本的参数值αβγs,如表2-25所示。

表2-25 参数估计值

通过计算,可以得到最大似然函数对数值总和LL为7 658.8。从参数估计结果来看,当客户处于活跃期时,意味着该网站客户的平均购买率和流失率如下。

①购买率:λγ/α=0.029。

②流失率:μs/β=0.000 01。

从客户之间的异质性而言,γ值较小意味着用户之间的购买率差异很小;s值较小意味着流失率差异较小。

(2)模型预测结果

最后将估计出的参数值连同数据集(xtxT)代入各项预测值公式求得各项预测值,本文在计算出(0,t]时刻内个体用户购买次数的期望值之后,在此基础上计算出观察期和验证期共273天内所有目标用户每天的累计购买次数期望值,并将结果与实际值进行比较。图2-8为所有目标用户每天的累计购买次数期望值与实际的比较结果。

图2-8 累计购买次数

图2-8中左侧为建模期,右侧为验证期。从总体趋势来看,Pareto/NBD模型很好地预测出了实际累计购买次数的变化趋势,取得了较好的拟合效果。而且由图2-9可以看出,随着天数的增加,Pareto/NBD模型的预测值与实际累计购买次数值之间的差距越来越小。不足之处在于Pareto/NBD模型的预测值在前期整体略低于实际累计购买次数。

图2-9 用户活跃度

本文通过用户活跃度的计算公式,计算出每个目标用户的活跃度之后,在此基础上计算出观察期内具有相同购买次数的目标用户的平均活跃度,并将结果与实际值进行比较,结果如图2-9所示。

具体来说,由图2-9和表2-26可以看出,Pareto/NBD模型的预测结果并不理想,随着用户重复购买次数的变化,Pareto/NBD模型对于用户活跃度的预测值一直非常接近1,而且并不随用户重复购买次数的变化呈现出规律性的变化趋势。而用户的实际活跃度情况则是随着购买次数的增加用户的活跃度也会相应提高,因此对于用户活跃度的Pareto/NBD模型整体预测效果非常不理想。

表2-26 用户活跃度预测值

在计算出购买次数的条件期望值之后,本文又在此基础上计算出建模期内具有相同购买次数的用户在验证期内购买次数的平均值,并将结果与实际值进行比较,如图2-10所示。

图2-10 购买次数的条件期望值

从图2-10和表2-27可看出,Pareto/NBD模型很好地反映了实际值的变化趋势。并且随着观察期内用户重复购买次数的不断增大,Pareto/NBD模型的预测值与实际值同时发生了上下波动情况。不足之处在于,由表2-27可看出,除用户在观察期内重复购买次数为0的情况之外,Pareto/NBD模型的预测值相比用户实际购买次数的条件期望值偏大,而且随着用户在观察期内重复购买次数的不断增大,Pareto/NBD模型的预测值与实际值之间的差距也在不断拉大,模型整体的预测效果并不是非常理想。

表2-27 购买次数的条件期望值

通过上述结果分析发现采用Pareto/NBD模型对大众点评网用户购买行为进行预测时,除了对用户活跃度的预测有较大的误差外,对消费者每天累计购买次数和购买次数的条件期望的预测值均能较好地反映预测趋势,取得了相对较好的预测效果,因此证明了该模型在进行大众点评网消费者购买行为预测时具有可行性。但是Pareto/NBD模型仍有不足之处,具体体现在对于活跃度的预测上。因此本文接下来会尝试对Pareto/NBD模型引入协变量,改进原模型。

2.4.3 Pareto/NBD改进模型

1.改进方法和原理

在具体讨论引入的协变量之前,本文先对引入协变量的方法和原理进行介绍。根据Fader等(2007)的推导,在Pareto/NBD模型中加入协变量只需将参数αβ做如下替换:

z1z2分别为调节用户间发文行为和流失行为异质性的协变量向量,γ1γ2分别为两个协变量向量的系数向量,原模型参数rs保持不变。

这种改进方法使用了比例危险模型(Proportional Hazards Models,PHM)的思想,最常见的PHM公式为

h0t|θ)为原概率分布的危险函数,起着“基准线”的作用,z代表对基准线造成影响的协变量,起着调节基准线的作用,γz的系数,决定z的影响程度。

根据这种思路,Fader等(2007)经过推导得出,只需将参数αβ做如上替换即可成功引入协变量。

2.引入协变量

消费者的最高购买金额和评论次数会对消费者的流失行为产生影响。基于此,本文选取了目标个体用户在观察期的总评论次数和最高购买金额两个变量作为预测用户购买行为的协变量。这两个变量已在数据的获取阶段进行了搜集,由于它们的数值在不同用户间的差异比较大,若直接将它们作为协变量代入似然函数中,求极值时容易出现异常的值而导致循环中断,因而本文在进行参数估计前使用了max-min标准化方法对总评论次数和最高购买金额这两个协变量的数据进行标准化处理,具体处理方法如式(2-43)所示。

为了观察各协变量对个体用户的行为规律产生的影响,本文做了以下三组实验。

(1)假设总评论次数对流失行为影响显著,使用总评论次数作为流失行为的协变量,即ββ0exp(-y1tc);

(2)假设总购买金额对流失行为影响显著,使用总购买金额作为流失行为的协变量,即ββ0exp(—y2tp)。

(3)假设总评论次数和总购买金额对流失行为影响显著,使用标准化后的总评论次数和总购买金额之和作为流失行为的协变量,即ββ0exp[-y2tctp)]。

其中,tctp分别为总评论次数和最高购买金额做了max-min标准化处理后的数据,y1y2y3分别为协变量向量的系数向量,原模型z中的参数γs保持不变。实验结果发现,这三组的实验结果均比较显著地提高了原Pareto/NBD模型的预测效果,这其中尤以第三组模型的改进结果最好。接下来,本文将分别展示模型改进的效果。

3.改进效果展示

以下实证结果列举了Pareto/NBD模型的预测结果和前面假设中引入协变量后模型的预测结果,并将其与实际值进行对比。三组假设涉及“假设总评论次数对流失行为影响显著,使用总评论次数作为流失行为的协变量”“假设最高购买金额对流失行为影响显著,使用最高购买金额作为流失行为的协变量”以及“假设总评论次数和最高购买金额对流失行为影响显著,使用标准化后的总评论次数和最高购买金额之和作为流失行为的协变量”的模型预测结果。

具体来说,图2-11为所有用户每天累计购买次数的几组实验的预测结果,左侧为建模期,右侧为验证期。从总体趋势来看,在对所有用户每天累计购买次数进行预测时,几组的模型预测效果均比较理想,但是在前期所有实验小组的预测模型结果相比实际每天累计购买次数均偏低,但是随着天数增加其差距逐渐减小。同时将总评论次数和最高购买金额作为用户流失行为的协变量,引入到Pareto/NBD模型中的预测结果也能很好地反映出用户实际每天累计购买次数的变化趋势。综上所述,以上几组模型对于用户每天的累计购买次数的预测效果均比较理想。

图2-11 累计购买次数预测结果

图2-12为各组实验改进的观察期内具有相同购买次数的用户的平均活跃度值与活跃度的经验值比较结果。由图2-14可以看出,“假设总评论次数和最高购买金额对流失行为影响显著,使用标准化后的总评论次数和最高购买金额之和作为流失行为的协变量”的实验结果不仅对原Pareto/NBD模型起到了改进作用,而且相对于单独引入总评论次数和最高购买金额的预测值而言,也起到了一定程度上的改进作用。虽然同时引入总评论次数和最高购买金额作为流失行为的协变量与只将用户最高购买金额作为用户流失行为的协变量引入Pareto/NBD模型中的模型预测结果相似,但是由图2-12可以明显看出引入单个协变量的模型预测数据结果随着用户重复购买次数的变化增长比较平缓,同时引入两个协变量能更好地反映出活跃度经验值的波动情况。

图2-12 用户活跃度

由图2-13可看出,同时将用户总评论次数和最高购买金额作为用户流失行为的协变量引入到Pareto/NBD模型中时,相比引入单个协变量的模型预测结果起到了改进作用,并在很大程度上对原Pareto/NBD模型的预测结果进行了改进。其中在建模期用户重复购买次数小于11时,几组模型预测结果相差不大;但是当建模期内用户的重复购买次数大于11时,“假设最高购买金额对流失行为影响显著,使用最高购买金额作为流失行为的协变量”的实验结果发生了较大程度的波动,而“假设总评论次数对流失行为影响显著,使用总评论次数作为流失行为的协变量”的模型预测结果比较理想。“假设总评论次数和最高购买金额对流失行为影响显著,使用标准化后的总评论次数和最高购买金额之和作为流失行为的协变量”的模型预测结果相对单独引入两个协变量的预测结果进行了调和,同时加入两个协变量的情况很好地预测出来用户实际购买次数条件期望值的变化趋势。但是同时引入总评论次数和最高购买金额两个协变量的模型预测结果仍有不足之处,其整体预测结果比实际值偏低。

图2-13 用户购买次数条件期望