聊聊用户运营中,对数据挖掘的思考

最近跟一个做运营数据挖掘方面的朋友交流了一下,请教他运营怎么做数据挖掘。听他讲的与我们做风控二分类模型不一样会做一些多分类模型,觉得比较有意思,针对这块我没太多经验,只能在其他地方收集一下资料,整理一下,跟大家讨论一下运营怎么做的问题。

聊聊用户运营中,对数据挖掘的思考

那一般整个做运营的思路是怎么样的呢?我打算从数据、变量、用户标签、用户画像与模型、营销策略几块入手给大家说说对运营方面的数据挖掘的看法。

一、数据

数据这方面,我觉得可以分为两大类别:静态的,动态的。静态的主要指的是用户一些短期不会变化的属性,主要几块,例如用户属性即一些人口统计学的属性,经济水平、消费情况这些。动态的主要是一些用户行为数据,例如用户的登陆行为(登陆时间段)、注册行为(注册所用时长)、等等。

那一般怎么获取这些数据呢?

针对静态数据,如用户这些人口统计学属性一般可以通过app调查问卷获得。怎么发出调查问卷呢?可以以一些营销活动为名义,用户为了得到奖励就会填写自己的信息。想我们平时可能会为了一些小利而出卖自己的隐私,所以大数据技术在我们国家得到那么好的发展是有道理的。好了,题外话不扯远。

另外还可以通过一些其他手段推算,例如年龄的话,有些app能够获取得到用户的身份证号推算年龄,因为身份证号里面有出生日期的信息。

还有,有些app在登陆的时候就需要填写个人信息,只要在不影响客户体验的基础上。

最后还有一种办法,即使自己没有,那么也可以买其他公司的数据,只要是合法的手段。

针对动态数据,可以通过数据埋点和用户授权两种方式获得。

数据埋点方式一般有全埋点、代码埋点、可视化埋点三种。参考网上的文章,埋点的一般逻辑为:用户有点击行为,点击行为生成一个点击事件,如果有页面的话,再生成一个页面事件。点击事件主要是用户点击行为,点击按钮等。然后就获得如刚才所说用户行为数据注册所用时长,因为技术细节我不大了解,描述不够详细,胖友们原谅。

用户授权获得就相对比较简单。例如像我们安装完有些app打开后,会弹出一些问题问我们是否授权访问通讯录啊,短信啊,硬件啊等等类似。当我们授权后,app就能获取我们的通话时长,最近发了多少条短信,手机容量,用户的实时定位这些,再说下去就不行了,都是行业秘密了。

二、变量

变量这块其实就涉及到特征工程了,包括原始变量和衍生变量。衍生变量这块在我公众号的《你是不是觉得你的变量太少》会有更详细的表达。这里给大家简单带过,大概讲讲在数据基础上加工得到的变量。

原始变量就大概是一些刚才提到的人口统计学属性、经济水平、消费水平可以直接获取不需要过多加工的变量。

衍生变量的话,针对刚才提到的静态数据,像之前文章提到的。可以简单组合,例如性别学历这种组合的话得到如男本科这样的属性。

针对动态数据经常有一些流水数据,可以通过如时间维度+维度交叉+统计量(如近3个月登陆点击广告次数的和、均值、标准差等)、时间维度+占比(近3个月占近6个月)、维度之间作运算(如申请额度/月收入)。

三、用户画像或模型

用户画像主要分为用户标签,客户分类两个阶段。

用户标签简单的说就是给用户打上标签,之前流传的一个梗不就是不要给90后打标签吗?其实说的就是类似一个画像的事情。举个例子,男性,35-40岁,本科学历就是一类客户的标签。对我们的客户群打这样的一个标签就可以知道我们的客群大概长什么样的了。

客户分类就是通过我们的标签给客户做一个分类等级。例如在风控里面可能就是优质、次级、稳定等等。在客户运营,客户关系管理里面就是可能就是重要价值用户、重要挽留客户、一般挽留客户这些,ps再次强调我没做个运营这块,所以只能提供一个大概思路啦。

模型这块我觉得大概也是两类二分类模型和多分类模型。

二分类模型就可以借用我们风控里面用的logistic模型和一些树模型xgboost、gbdt这些。

多分类模型的话是不是可以使用多分类的logistic和一些无监督的方法如kmeans聚类、密度聚类这些。

多分类的logistic怎么结合业务场景使用我这边不大熟悉,kmeans聚类跟这一行的朋友交流过。一种是结合RFM模型使用。有朋友问什么是RFM模型。R、F、M分别指的就是最近一次消费,消费频率,消费金额。这个模型就是通过这3类指标去衡量用户价值。然后kmeans就可以使用这3类里面的3个特征来使用聚类的算法。

密度聚类使用的场景就是利用上面数据提到的客户定位数据通过密度聚类的方式得到用户大致的活动区域。在这个活动区域判断用户的职业或其他信息。

四、营销方案

得到我们的用户画像和模型之后,我们就可以根据这个画像和模型进行营销方案的输出了。

对用户画像中打过标签的客户采取动作,例如对标签为长期不充值的客户可以适当给一些充值优惠券。

另外根据用户画像给的客户分类之后,可以对客户进行差异化的定价。对优质客户给一些更大的优惠等等。

而模型就可以产出一些营销名单节省营销成本对基于目标变量更大概率的一些客户。举个例子,在促销活动中,我们可以对促销成功概率更大的一批客户产生他们的名单等等。

以上就是我对数据挖掘在运营方面一些使用的不成熟的看法,希望这次文章能起到抛砖引玉的作用,让运营方面的行业大牛来讨论、指导一下。另外想说的是,在各行业用到数据分析挖掘的方法论应该是类似的,但建立在不同的业务场景下,还是那句话:方法可以迁移,但紧紧结合业务才能产生大的价值。

本文由用户@Dalson发布于新媒体运营,未经许可,禁止转载。

题图来自 Unsplash,基于 CC0 协议。

本文由 新媒体运营 作者:Dalson 发表,其版权均为原作者所有,文章内容系作者个人观点,不代表 新媒体运营 对观点赞同或支持,未经许可,禁止转载,题图来自Unsplash,基于CC0协议。
2

发表评论