谁说菜鸟不会数据分析

《谁说菜鸟不会数据分析》这几套系列书是在Cityu读书的时候,李昕老师推荐的,是数据分析领域比较值得入门的书籍之一。最近又翻阅了一下,做个总结吧。

  • 基本概念
  • 数据分析方法论
  • 数据准备
  • 数据处理
  • 数据分析

入门篇中主要包括Excel常用功能介绍、数据可视化、分析报告撰写方法等几个方面,很适合搞的marketing人学习,面向传统意义上的数据分析,而大数据分析excel肯定是无法handle的。

本书除了人物的对话有点尬之外,其余内容还是很赞的,当然有些准则可能是在实际的工作中无法照搬照抄,有些地方还是值得商榷的,当然还需要考虑自己领导的个人偏好,不然报告得一改再改。

一、基本概念

1.1 什么是数据分析?
数据分析就是用适当的统计学方法对收集的大量数据进行详细研究,提取有用的信息并形成结论的过程。

统计学将数据分析划分为:描述性数据分析、探索性数据分析、验证性数据分析。

数据分析的作用:数据分析在“企业的日常经营”中主要有三个作用:现状分析、原因分析、预测分析。

1.2 数据分析的步骤?
明确分析目的和思路:以问题为中心去进行分析,常见的框架:4P、SWOT、PEST、5W2H、SMART等;
数据收集:就是数据的来源,主要有数据库、公开出版物(年报)、网上爬虫、咨询公司的市场调查等;
数据处理:数据处理包括=>数据清洗=>数据转化=>数据提取=>数据计算;
数据分析:提取和挖掘有用的信息,主要有四类问题:分类、聚类、关联和预测;
数据展现:数据可视化的过程,绘制一目了然的图表;
报告撰写:对整个分析过程进行一个总结和呈现,把数据分析和数据展现的内容进行归档;

1.3 常见的指标和术语
有些简单的指标就不详细介绍了,例如平均数、绝对数与相对数、百分比与百分点、频数与频率;

比例与比率
比例:样本与总体的比值;
比率:样本与样本的比值;
例如:男生30,女生20,总人数50,男生的比例为30:50,男生与女生的比率为30:20。

倍数与番数
倍数:A是B的C倍,A/B=C;
番数:A是B的2的N次方倍,翻一番就是2倍,翻两番就是4倍;
注:番数和倍数适用于表示数量增长和上升的幅度。

同比与环比
同比:指与历史时期进行比较得到的数值,2018年1月与2017年1月相比;
环比:指与前一个统计期比较得到的数据,可能是周、月、季度;

二、数据分析方法论

数据分析方法论就是按照已有的营销/管理理论对问题进行分析,是的分析过程更有逻辑和条理。简单的罗列几个常见的方法论,遇到问题的时候可以有个方向。

2.1 PEST分析方法

PEST是对影响企业的主要外部因素进行分析,包括政治、经济、技术和社会环境。

政治环境:包括国家的社会制度、执政党、政府制定了那些政策和方针。
参考指标:政治体制、经济体制、财政政策、税收政策、产业政策、投资政策、国防开支水平等;

经济环境包括:宏观和微观两部分。
参考指标:宏观(GDP及增长率、进出口总额及增长率、利率、汇率通胀率),微观(消费价格指数、居民可支配收入、失业率、劳动生产率)

社会环境:包括教育程度、宗教信仰、风俗习惯等。
参考指标:人口规模、性别比例、年龄结构、出生率、死亡率、种族结构、教育情况、宗教信仰等;

技术环境:包括国家对于科技的投资力度、专利个数、研究开发经费等。
参考指标:新技术的发明和进度、技术更新速度、折旧速度、专利个数、专利保护情况等。

Smiley face

2.2 5W2H分析法

5W2H这个方法大家都懂得,做什么事情都可以拿来套用。这个方法对于说话不抓重点的人很奏效。

Smiley face

2.3 逻辑树分析法

逻辑树又称之为问题、演绎树、分解树,就是从根本问题入手,对问题的所有子问题进行罗列,逐步向下展开,从而找到最重要的原因。

Smiley face

2.4 4P营销理论

这个理论非常有名,诞生于20世纪60年代的美国,与PEST类似,4P分别代表了:产品Product、价格Price、渠道Place、促销promotion.

Smiley face

2.5 用户行为理论

用户行为理论是指用户获取、使用产品或服务所采取的行动,通常来讲包含认知、熟悉、试用、使用、忠诚这几个过程。

Smiley face

三、数据准备

数据准备的过程说难不难说易不易,如果说已经有数据了,那么很简单,导入就完事了。如果没有呢?那么可能就需要通过找公开资料、爬虫等方式去获取数据,这样又产生了一个很麻烦的问题,资料要收费、爬虫要技术(有些网站反爬虫做的比较好)。

书中并没有涉及这些内容,毕竟只是入门级,简单地以调查问卷为例,如何把问卷的内容导入Excel,得到可用于的数据。以下几点值得注意:

1.导入数据时要关注数据的数据类型,字符类型还是数值类型。数值类型中时间这个类型比较特殊,需要重点关注;
2.一维报表和二位报表之间的转换,通常以一维的方式存储居多;

四、数据处理

4.1 数据清洗

重复数据处理:导入数据后首先需要删除重复数据,具体方法可以通过“删除重复项”搞定。
缺失数据处理:Excel可以通过“定位”的方式找到缺失值。对缺失值的处理方法有以下几种。

1.用一个样本统计量的值代替;
2.用统计模型计算出值来代替;
3.删除有缺失值的记录,有点简单粗暴,会导致样本数量减少;
4.保留记录,在做相应的分析是,按情况进行排除;

数据抽取:根据不同的需要对数据进行提取,可以采用“分列”的方式,可以通过LEFT和RIGHT函数提取字符串函数,CONCATENATE函数或者“&”进行字符串拼接,vlookup进行字符串匹配等。

数据处理的过程=>不同工具可能方法不一样,但是清洗思路是一致的。

4.2 数据计算

常见的公式:

AVERAGE():计算平均值
SUM():求和
RAND():返回[0:1]的随机数
INT():截取整数部分数据
ROUND(value,point):四舍五入,point表示要保留小数点后几位,可以为负数

IF(logical_test,value_if_true,value_if_false):执行逻辑判断的真假返回结果;
OR(logical1,[logical2],…):或,至少有一个逻辑判断为真,返回真;
AND(logical1,[logical2],…):与,所有逻辑判断都为真,返回真;
COUNTIF(range, criteria):对区域中满足单个指定条件的单位格进行计数;

LEFT(text,[num_chars]):得到字符串左部指定个数的字符;
RIGHT(text,[num_chars]):得到字符串右部指定个数的字符;
CONCATENATE(text1,text2,…):将几个文本字符串合并为一个文本字符串;

VLOOKUP(lookup_vaule,table_array,col_index_num,range_lookup)
从指定表格[table_array]的首列匹配指定的数据[lookup_vaule],返回指定的数据所在行中的指定列[col_index_num]处的单元内容; 参数range_lookup为匹配模式,近似匹配(1)/精确匹配(0);

HLOOKUP(lookup_vaule,table_array,row_index_num,range_lookup)
从指定表格[table_array]的首行匹配指定的数据[lookup_vaule],返回指定的数据所在行中的指定行[row_index_num]处的单元内容; 参数range_lookup为匹配模式,近似匹配(1)/精确匹配(0);

SEARCH(find_text, within_text, start_num):返回指定字符串在原始字符串中首次出现的位置;
注:Find_text中可以使用通配符,“?”表示一个字符,“*”表示多个字符,“~”可作为转义符;

日期相关函数
TODAY():显示当天的日期
NOW():显示当前时刻,包含日期;
DATE(year,month,day):返回某指定日期;
YEAR(serial_number):返回某日期指定的年份;
MONTH(serial_number):返回某日期指定的月份;
DAY(serial_number):返回某日期指定的日期;

DATEIF(start_date,end_date,unit):指定两个日期之间的年、月、日间隔数;
Unit包含Y/M/D/MD/YM/YD六种形式
“MD”为两者的天数差,忽略日期的月和年;
“YM”为两者的月数差,忽略日期的日和年;
“YD”为两者的天数差,忽略日期的年;

五、数据分析

根据数据分析不同的目的,书中介绍了不同的数据分析方法,但并没有提及像线性回归、逻辑回归等方法,只是一些管理/营销上面的分析方法。

Smiley face
分组分析法、结构分析法、平均分析法、交叉分析法、综合分析法不做过多的说明。

5.1 对比分析法
对比分分析很简单,就是将两个或者多个数据进行比较,分析差异,比较直观。

主要分为一下两种:
静态比较 => 同一时间条件下对不同的总体指标进行分析,也叫作横向比较。常见的横比:实际完成值与目标值进行对比、同级单位(部门、地区)对比、行业内对比。
动态比较 => 在同一总体条件下对比不同时期的数据,也叫作纵向比较。常见的纵比:同比、环比。

对比分析需要注意以下几点:

1.指标的口径范围、计算方法、衡量单位需要统一;
2.对比的对象要有可比性;
3.对比的指标类型需要一致。

5.2 杜邦分析法
杜邦分析法是财务管理中非常有名的分析方法,将若干个用以评价企业经营效率和财务状况的比率按照内在联系有机地结合起来,形成完整的指标体系。层次清晰、简明的表达了财务指标之间的关系。
Smiley face
当然现在杜邦分析使用的范围更广,并不是只能用在财务分析上,利用该分析方法的原则,可以用于其他问题的分析,比如市场占有率分析等。

5.3 漏斗分析法
漏斗分析法通常是用于分析业务流程比较规范、周期长、环节复杂的业务过程。比如网站的转化率等。

Smiley face

5.4 矩阵关联分析法
在时间管理中,经常会告诉你把事情分成四类;重要紧急、重要不紧急、不重要紧急、不重要不紧急。这就是所谓的矩阵分析法。根据事物的两个重要指标作为分析的依据,进行分类关联分析,找到解决问题的办法。例如:

Smiley face

分析关联矩阵的优化
发展矩阵 =>在矩阵中增加发展趋势的维度
改进难易矩阵 =>在矩阵中增加难度系数的维度

Smiley face
Smiley face

5.5 分析法方法总结
Smiley face