南彩上海印刷公司成立于2004年,是专业从事商务设计与印刷的上海印刷公司,并集设计制作制版印刷装订加工于一体的上海印刷厂家。

关注微信公众号

如何用机器学习模型预测 App 用户流失?

作者:上海印刷公司 来源:印刷知识 时间: 点击:

如何用机器学习模型预测 App 用户流失?

引言

本文是 TalkingData 一位不愿透露姓名的 Frank Zhang 同学翻译自翻译自 Inside Big Data 的一篇文章,介绍说明了一个用机器学习模型预测用户流失的案例,从特征到模型以及模型的部署和应用等。

原文作者是 Urban Airship 高级数据科学家 Lisa Orr,原文链接见阅读原文。


图片来自:Digital Ocean

随着获取 App 新用户的成本飞涨,保留已安装用户是最大化获客成本和用户生命周期价值的关键。Urban Airship 的数据科学小组去年花费了一年时间来开发一种方法识别和定位可能停止使用您的应用的用户。我们称之为预测流失。

在这里,我提供了基于数十亿事件的可扩展机器学习预测模型建立过程的深入见解,并介绍说明这些预测能力如何带来对用户行为的新洞察,如何为新的触达策略提供动力,如何影响用户留存。

开发机器学习模型

流失预测是一个简单的分类问题 ; 及时回顾用户活动,检查一段时间后谁保持活跃状态,然后提出一个模型,将活跃用户和不活跃用户分开。借助于大量的数据,我们试图寻找用户可能继续打开应用程序的最佳指标是什么?

首先,我们可以查看用户的日常使用活动。用户打开应用程序的频率如何?他们最近什么时候打开的?如果我们试图预测谁会在不久的将来打开应用,一个好的指标可能是用户是否已经打开应用程序。接收推送通知的影响呢?选择接收它们是影响用户 App 活动的首要因素吗?

回顾 60 天的用户数据,我们在累积窗口中汇总了消息发送和应用打开信息,以及一些附加信息,如设备平台和 App ID。然后,我们根据用户在未来 30 天内是否打开应用,将每个用户标记为已流失或未流失。利用为每个用户汇总的特征数据,我们使用梯度提升树机器学习算法来训练模型。


图片来自:Datum Box

我们对流失预测进行了六个月的历史研究,对数十种特征(即可观察的用户和应用行为)进行了模型训练。我们的目标是在预测客户流失方面获得更高的准确性,并洞察影响客户流失的因素。通过研究模型,对于哪些特征影响最大,我们发现了一些有趣的模式:

打开活动。到目前为止,未来是否活动的最大预测因素是从最近一次打开以来的持续时间。这是有道理的,因为这是与我们试图预测的时间方向相反的方向。在最近的时间窗口内打开的次数和最近一次打开距今的时间远近程度在预测谁将要流失方面都起着重要作用。

发送活动。另一个有趣的发现是,接收推送通知对用户保留有积极影响。这又是有道理的,如果您选择接收推送通知,则表明您对该应用表现出积极的兴趣,并且表明了发现其更多价值的开放性。

来自 Urban Airship 的数据科学和营销团队最近的一项研究说明了这一点。收到至少一个推送通知的用户与没有收到推送消息的用户相比,留存率高出 66%。我们还发现收到的通知数量和保留的天数之间的关系,用户收到的消息越多,他们继续使用应用的时间越长。与打开次数一样,通知发送的距今的时间远近和频率在模拟客户流失活动中起到了作用。

扩展模型

现在我们创建了一个可工作模型,下一步就是测试它扩展到数千个应用和数十亿用户的能力。添加更多的应用很快暴露出一个弱点:将数据从 csv(从 MapReduce 作业的输出创建我们的特征数据)重新处理为稀疏矩阵(提升树模型所需的格式)。

由于内存问题,此处理步骤导致作业失败。增加计算资源可以暂时解决问题,但是随着我们添加更多的应用,我们需要重新思考我们的策略。在开发阶段写入 csv 非常有用,因为我们可以仔细检查我们的工作。但除了人类可读,使用中间格式没有真正的好处。

我们直接在 MapReduce 作业内将特征数据重新格式化为稀疏矩阵。到目前为止,通过在 MapReduce 阶段添加更多的机器或者增加建模阶段使用的单机的大小,解决了更多的内存压力。随着格式的变化,我们能够同时训练数千个应用的模型。

模型生产

一旦我们有了一个可扩展的工作模型,下一步就是搞清楚如何最好地向客户提供这些预测。对于模型中的每个用户,我们可以得到一个打分为 0 到 1 的流失概率。分数越高,用户越可能会流失。反之,得分越低,用户越可能会留存。

如果你看一下流失概率的分布,就会发现你的应用的超级粉丝(肯定会回来的)和你的应用将要流失的用户。而在这中间,还有一些混杂的个体,对于他们将要走向哪个方面不太确定。


图片来自:insights.swie.io/

模型的概念使我们将用户分成三组:高风险组、中风险组和低风险组。通过预测结果来进行推送,我们的客户能够根据他们触达策略的激进程度来调整他们的受众细分。

例如,如果您试图重新接触风险较高的用户,那么如果只包括高风险受众,则可以扩大提供的奖励,或者如果同时包含高风险和中等风险受众,则可以将其缩小。

一旦用户被分类为高风险、中风险或低风险,客户可以通过实时移动数据流立即获取数据,以便在其他系统中进行分析或采取行动,DashBorad 可查看近五周的表现,通过可视化 展示为了将用户从高风险状态转移到低风险状态所做的努力效果如何。

在实际环境中预测

为了说明预测流失如何影响触达策略(反之亦然),这里有几个匿名的 Urban Airship 客户和他们各自的流失评分分布:

以上可视化表示 Urban Airship 三个示例应用的用户流失预测分数直方图。每个条形表示可能流失分数落在指定分数范围内的用户的百分比。颜色代表风险类别:绿色是低风险,黄色是中等风险,红色是高风险。预测于 2017 年 2 月 3 日进行。

比较这些应用,我们可以看到流失预测的用户分布。与大多数用户处于高风险组的应用 B 相比,应用 A 中大多数用户处于低风险组。对于应用 C,我们看到一个双峰分布,其中一大群用户处于高风险组,另一大群用户处于低风险组。

流失预测与应用触达策略有何关系?这三个应用都有大量的受众群体(超过 300 万个独立设备),且都使用消息推送来吸引用户。

但是,这些应用的触达方式存在很大差异。应用 A(低风险应用)有一个非常复杂的触达策略,广泛使用高级功能(即标签、生命周期列表、应用程序内通知、消息中心等),针对受众分群推送,并获得对这些消息的高度参与(通过直接或在影响下打开应用)。

另一方面,应用 B(高风险应用)在进行简单的受众细分后使用非常基本的消息推送策略,偶尔传达给有限的受众,并且几乎没有受众参与。

应用 C(流失分数存在双峰分布的应用)使用了中间策略。他们利用一些高级的参与度特征,如别名、徽章和深度链接,几乎只发送广播信息,推送了这些信息后他们观察到了大量的受众响应。

通过比较流失预测和应用触达策略,我们的客户可以找出哪些地方需要改进,这些改进带来哪些变化,并且可以比较流失分数在每周的变化情况。

对于应用程序 B,我们建议针对更多的受众群体,更频繁地进行消息推送,并将他们的消息推送策略的使用扩展到更多的方式(如应用内消息推送和消息中心), 以及通过标签和指定用户提高触达精准度。

对于应用 C,我们建议不再使用广播推送,转而明确针对高风险的受众。

下一步是什么?

预测性流失使企业能够在正确的时间,正确的渠道将正确的内容送达用户,将用户从要流失的转变为留存的。但这只是数据科学和机器学习能力的开始。不久以后,使用数据自动发送消息通知并改善用户触达效果将是公司的标配。

相关关键词推荐:长沙app开发


  • 本文标签:
  • 本文地址:http://www.56mt.com/yinshua/737.html