大家好,我是爱踢球的阳仔。前两期我们聊了数据分析工具有哪些,本期我们聊聊“数据分析的一般流程”。
在做分析之前,我们可以先问自己一个问题:我要用这些企业数据,做什么样的分析?
根据不同工作流程所处阶段和分析需求角度出发,可分为描述分析、诊断分析、预测分析和指导分析四个步骤。
描述分析是最常见的分析模式,它主要是将基础数据进行汇总,并转化为便于理解的形式,例如各种周期报表、图表等。通过描述分析可以快速评估业务特征,以及找到分析的方向。
描述分析一般从数据分布、数据波动、异常数据,这3个方向入手。
-
通过 [平均值]、[中位数]、[最大值]、[最小值]、[众数]、[百分位数]来观察数据的分布情况;
-
通过[方差]、[标准差]来分析业务指标的波动情况,即业务稳定性的高低、经营风险的大小;
- 通过[分位数]、[切比雪夫定理]、[经验法则]进行异常值检测,注意在计算任何平均值前都需要剔除异常值
在诊断分析中应用最广泛的就是指标拆解和相关性分析法。
例如:发现本月GMV减少,我们该如何发现原因?
方法1:拆解指标口径
GMV = 门店数量 * 店效 == 门店数量 * 店均人数 * 人效。当GMV发生变化时,我们可以通过分析门店数据、店均人数、人效3个子指标的变化来确定原因。
方法2:指标维度下钻
GMV = A级店GMV + B级店GMV +~~~
通过逐步细化指标维度,实现原因判断。常用的维度下钻有日期维度、地理维度、分类维度、流程维度。
2.2 相关性分析,找到关键因素。
相关分析是研究两个或两个以上处于同等地位的随机变量间的相关关系的统计分析方法。使用“相关系数”这个指标定量给出几个指标间联系和影响的程度,一般用r来表示。
r的值在-1和1之间。
正相关时,r值在0和1之间,散点图是斜向上的,这时一个变量增加,另一个变量也增加;
负相关时,r值在-1和0之间,散点图是斜向下的,此时一个变量增加,另一个变量将减少。
r的绝对值越接近1,两变量的关联程度越强,r的绝对值越接近0,两变量的关联程度越弱。
描述分析和诊断分析主要是分析过去,预测分析是分析未来可能发生的事情。实际工作中,业务同学也更关系未来的走势以及是否可以提前规避风险。
预测分析可归纳为定量分析法和定性分析法两种。
定量分析是根据过去比较完整的统计资料,运用预测变量之间存在的某种关系(如时间关系,因果关系和结构关系等),使用现代数学的方法,进行计算分析得出预测结果。
通常包括指数平滑法、趋势外推法、季节指数预测法、回归分析法、投入产出法、经济计量模型法等。
指导分析是基于描述、诊断、推测,帮助业务确定要采取的措施。日常工作中,指导分析往往是数据分析师和业务运营同学协作完成。
例如要想实现GMV的稳定增长,通过数据分析描述现状、发现原因、预测未来变化,结合目前公司状况,和业务运营共同制定提升员工素质、扩大门店规模的运营策略。
数据分析的一般流程就全部说完了,大家可以结合自己的工作场景进行尝试。
全部评论
(2) 回帖