系统聚类分析的意义和作用,聚类分析在系统分
聚类分析的主要分析方法
聚类分析、回归分析、分类预测以及组间差异分析
四类方法的内在联系
聚类分析
用户由那些群体组成。
群体有那些特征。
回归分析
未来的销售趋势。
营销投入是怎样的。
分类分析
筛选出高价值用户。
组间差异
不同用户营销渠道和营销方案有差异么?
聚类分析
定义:把相似的分析对象根据各自特征分成不同组别的统计方法。
应用场景:
客户分群,利用顾客特征属性将顾客总体分成若干组,是的组内顾客特征相似。不同组
顾客间差异明显。
常用的分类数据维度:
消费者行为习惯
消费者自身社会属性
顾客的消费行为度量,RFM
等
业务价值:基于顾客个人、行为和交易数据深入了解顾客群体,制定更有效的策略。
常用聚类方法:
K均值聚类分析方法
算法核心:将所有的观测值划分到K个群体,使得群体和群体之间的距离尽量大,
同时群体内的距离和尽量小。
算法优点:快速聚类,输出结果简单易懂,对计算机的性能要求不高。
聚类分析非常注重落地效果的分析方法,
每次聚类之后应该都可以解答如下问题:
聚类之后的用户分群的特征是否明显?
聚类之后的用户是否有足够数量的群体?
分群的结果是否可以触达?
回归分析
定义:回归分析是一种预测性的建模技术,研究因变量和自变量之间的关系。
作用:可以表明自变量和因变量之间的显著关系,也可以反映多个自变量对一个因变量影响
的强度。
模型可以解释所观察到的数据所造成的影响,无法解释那些未被观察到的因素,如市场环
境,季节变化等。
回归分析的应用场景
媒体投放效果
以最少的投放获取最大的销售增长
数据分类:
Y(因变量),销售额
X(自变量),电视广告投放、社交软件投放、线下投放等。
具体操作步骤:
对数据进行散点图绘制,
引入回归线,可以比较直观的看出因变量与自变量的关系。
评估回归线,每个点与回归线的距离,结果是否准确。
扩展变量,将X变量扩展到所有变量查看对Y变量的影响。
输出结果。
但需要注意的是,自变量不会因为因变量无限制的增长,所以回归分析更主要
的还是观察各个因素系数的大小,横向比较他们对目标变量的影响。
所以:
回归分析可以很好的展现相关关系的因果关系,进而实现预测。
着重于不同X对Y的影响的对比,而非依赖线性关系对未来做出非常明确的预测,
主要用于回归推断。
分类分析方法
定义:从数据中选出分好的训练集,在训练集的基础上进行建模,最终预测未分类的数据类
别。可以比较直观的展示出了。
分析方法的比较:
分类分析-回归分析
共同点:都是通过X来预测Y
不同点:分类分析适合类别型数据,回归分析适用数据型数据。
分类分析-聚类分析
共同点:对于想要分析的目标点,都在数据集中寻找附近的点
不同点:聚类分析是将一堆数据分类,类别未知,分类分析是已知分类类别。
分类分析的应用场景:
判断邮件是否为垃圾邮件
判断在线交易是否存在风险
消费者行为预测
如何实习分类分析
逻辑回归,决策树模型等。
组间差异分析法
定义:通常称为A/B测试,将两个不同版本随机展示给类似群体,以各组之间效果差异评
估,选择效果最好的。
常用流程:
1、提出假设,两种影响有差别或无差别。
2、假设验证,设定显著性水平,然后验证是否显著,选择拒绝或者接受。
检验两个数据之间是否有明显的均值差异。
计算Z评分,汇总各组均值及历史数据中所推断的标准差数据验证假设。
3、注意事项,
明确测试目标。
尽可能避免任何其他干扰因素。
测试组和对照组均匀分配。
下一篇:没有了
相关文章: