我们在进行数据阐发的时候,年夜部分时间都在使用趋势阐发、比较阐发、细分阐发这三类体例,但其实还有一个别例我们也会常常使用——交叉阐发,尤其是在排查数据异常的问题时,交叉阐发就可以展现其强年夜的威力。别的要跟年夜家说声抱愧的是博客的更新频率可能没有那么频繁了,可是尽可能每个月至少能发布一篇,希望文章的质量有所包管,仍是欢迎年夜家留言讨论,能够倡议一些有趣的话题,一起拓展在网站数据阐发方面的思路。
什么是交叉阐发?
交叉阐发是指对数据在不合维度进行交叉展现,进行多角度连络阐发的体例,弥补了自力维度进行阐发没法发现的一些问题。
交叉阐发以多维模型和数据立方为根本,也可以认为是一种特殊的细分体例,但跟细分的概念有点差别。细分的体例更多的是基于同一维度的纵深展开,也就是OLAP中的钻取(Drill-down),比如从月汇总的数据细分来看每天的数据,就是在时间维度上的细分,或从省份的数据细分查看省份中各城市的数据,是基于地区维的下钻。交叉阐发不再局限于一个维度,就像数据立方体与OLAP文章中的立方体,是基于不合维度的交叉,时间维、地区维和产品维交叉在一起阐发每个小立方的数据表示,可以通过OLAP的切片(Slice)和切块(Dice)操作查看例如上海市在3月份的电子产品的销售情况,这会帮忙我们发现很多在单个维度中无法发现的问题。所以,交叉阐发是基于不合维度横向地组合交叉,而不是细分在同一维度的纵向展开。
交叉阐发的展现形式
交叉阐发涉及多维度的组合,虽然图表和表格都可以进行展现,但因为图表所能表达的数据有限,且比较不容易把多个维度的交叉关系展现出来,在交叉阐发中不太常常使用,通常以表格为主。我们平常在看的表格通常被叫做二维表,一般第一列放置一个维度,如日期,表头枚举各类指标(其实所有指标也可以被认为是一种特殊的维度——指标维),这样行列的两个维就组成了最常见的二维表。二维表可以进行扩大,进而展现加倍丰富的维度:
如上图就是典型的基于表格的多维度交叉阐发的布局,在行列中分条理放置多个维度,如果我们只显示一个指标,那么这里的指标维就没有显示的需要了。其实Excel的数据透视表(Pivot Table)就是交叉阐发的利器,我在数据的报表和述说这篇文章中提到过数据透视表,这里仍是基于那篇文章截图的原始数据,如果我们将各维度依照上面的布局形式进行展现的话,会是怎么样的效果:
看起来还不错,显示的信息很是丰富,左边包含了以天为单位时间维和产品维,可使用展开按钮进行汇总和展开,就像是细分的操作;上面的表头部分分两层枚举了地区维和指标维,Excel的透视表提供了丰富的设置,默认展现基于各个维度的汇总数据,让我们可以从"总-分"的角度不雅察数据,这对数据阐发很是有用。假定我们使用上面的透视表进行交叉阐发发现数据是否存在异常?
使用从总体到细节的阐发体例,首先可以从查看每天销售额和转化率的汇总数据起头,折叠产品维之后不雅察最右侧的指标汇总列便可以看到每日汇总数据;如果某一天的销售额或转化率呈现了年夜幅的下滑,我们便可以连络各类维度寻找问题的原因,就是基于各类维度的细节数据,展开产品维不雅察当天的哪类产品销售呈现了问题,然后连络地区维的交叉数据,可以定位哪类商品在哪个省份的销售呈现了问题,这样就有效地将问题定位到了细节的层面,能够更好地发现问题,进而解决问题。所以交叉阐发其实正是体现了阐发"分而析之"的本意。
上面的体例一般是比较常常使用的基于问题的阐发体例,但我们很少可以一次就定位到问题,往往我们会按照推测多次查询数据库或查看Dashboard上的各类报表来定位问题。而连络透视表的交叉阐发,我们使用一张报表就快速地定位了问题所在,从总体到细节,逻辑很是清晰,问题的定位也很是准确和到位,所以公道地操纵交叉阐发可以帮忙我们加倍高效地排盘问题。