本课程共七个章节,课程地址:7周成为数据分析师(完结)_哔哩哔哩_bilibili
- 数据分析思维
- 业务知识
- Excel
- 数据可视化
- SQL
- 统计学
- Python
目录
前言:数据分析的结构层次(P1-P2)
第一周:数据分析思维(P3-P14)
一、数据分析的三种核心思维
(一)结构化(金字塔思维)
(二)公式化(量化一切)
(三)业务化
(四)总结
二、数据分析的思维技巧
(一)象限法
(二)多维法
(三)假设法
(四)指数法
(五)二八法(帕累托法)
(六)对比法
(七)漏斗法
三、如何在业务时间锻炼数据分析思维
数据分析是一门交叉领域的学科。分析师们既可以用Excel完成一份最基础的数据报告,也能用Python深入挖掘。真正决定数据分析师上限的是其能力,而不是工具
前言:数据分析的结构层次(P1-P2)1. 底层数据的收集/产品端收集(用户行为 — 原始数据)
数据采集简称埋点,收集用户在网页端、产品端、客户端等终端的数据,也包括第三方外部数据
2. 数据业务化/产品需要什么样的数据(原始数据 — 加工数据)
将收集的数据转换成可理解、可量化、可观察的业务指标。单纯的数据没有意义,只有和业务结合才能发挥价值
3. 数据可视化/产品的表现如何(加工数据 — 可视化数据/信息)
有了数据指标,必须管理好指标。数据分析体系即数据指标体系,指标需要监控和衡量
4. 数据决策和执行/怎么让产品更好(可视化数据/信息 — 数据决策)
当从数据中获得了洞察,就需要把洞察转换成策略,这也是包含分析的过程。执行既包含策略的制定,也包括优化和改进,这是持续的
5. 数据模型/产品开始自动化和系统化的运营(数据决策 — 数据产品/应用)
这是将策略制作成数据应用和产品,当洞察到数据中蕴含的规律,什么样的用户喜欢,什么样的商品会被购买,什么样的活动形式更好,就尝试把这些做成系统
6. 数据战略/指导未来(数据工具 — 数据体系/战略)
当积累了大量的数据、模型、数据应用时,公司级的数据体系已经具备雏形。它不只是数据分析,而是应该将数据变现
- CRM:Customer Relationship Management
- CMS:Content Management System
- DW:Data Warehouse
Excel+统计学:分析工具库
SQL+Python:PyMySQL
可视化+Python:Matplotlib
可视化+SQL+Python:Superset
第一周:数据分析思维(P3-P14)- 数据分析的三种核心思维
- 数据分析的思维技巧
- 如何在业务时间锻炼数据分析思维
例:现在有一个线下销售的产品,发现8月的销售额度下降,和去年同比下降了20%。先观察时间趋势下的波动,看是突然暴跌,还是逐渐下降;再按照不同地区的数据看一下差异,有没有地区性的因素影响;问销售员,看一下现在的市场环境怎么样;听说有几家竞争对手也缩水了,看一下是不是这个原因;还要做顾客访谈
结构化就是层层递进和拆解。将分析思维结构化,即将论点归纳和整理、递进和拆解、完善和补充
思维导图(个人)/结构卡片(团队头脑风暴)
(二)公式化(量化一切)
- 销售额 = 销量*客单价
- 销量 = 人均销量*购买人数
- 客单价 = 原价*折扣率
- 利润 = 销售额收益-成本
- 销售额不是单一的维度,是多个商品/SKU(类目)的总和
- 地区的销量是不同线下渠道的累加
- 购买人数 = 新客+老客
- 不同类别的业务叠加可以用加法
- 减法常用来计算业务间的逻辑关系
- 乘法和除法是各种比例或者比率

如何预估上海地区的共享单车投放量?
- 从城市流动人口计算:每天通行人数
- 从人口密度计算:不同市区
- 从城市交通数据计算:地铁站点、交通枢纽
- 从保有自行车计算:公开数据
- 单车是有损耗的,计算公式中应该考虑单车的消耗因素
你的分析贴不贴合业务?
- 有没有从业务方的角度思考
- 真的分析出原因了吗
- 能不能将分析结果落地
结构化思考+公式化拆解 —— 现象(某个结果的体现,不代表原因)
业务化 —— 原因
(四)总结
RFM 8个象限
- 核心:策略驱动
- 优点:对数据进行人工划分,划分结果可以直接应用于策略
- 应用:适用范围广
- 须知: 象限划分可以按中位数、平均数,或经验
把销量分为三大维度:品类、时间、地区,共27块
缺点:辛普森悖论(如何规避? 钻取:将维度细分)
- 核心:精细驱动
- 优点:处理大数据量、维度丰富且复杂的数据有较好的效果。但是维度过多会消耗不少时间
- 应用:数据齐全且丰富均可
- 须知:对不同维度进行交叉分析时,要注意辛普森悖论
很多时候,数据分析是没有可明确参考的,比如新进入一个市场、公司开拓某样产品、老板让你预测一年后的销量,或者产品的数据基础非常糟糕,拿不到数据
例1:公司在节日进行了一次营销活动,APP上的销量数据整体比上周上升了20%。因为统计失误问题,拿不到明细数据,也就是说,活动效果是一个黑盒。现在的问题是,销量本身就有可能因为节日而提高,那怎么证明活动是有效或无效的呢?
假设活动是有效的,那么会有一定数量的用户购买(如果能证明这条,那么我们有理由相信活动是有效的)。用户通过活动购买商品,会发生什么可观测的行为呢?假设有一些用户会评论留言,那么可以统计提及活动的字眼;当用户提及了这次营销活动,接下来的问题是,有效了多少?假设参与活动的用户行为没有变化,那么通过历史数据的用户评论占比,反推购买人数
例2:你是自营电商的数据分析师,现在想商品提价后,收入会不会有变化,你会怎么做?
假设商品提价后,销量一定会下跌,问题是销量下跌多少?首先假设流量不会有变化,流量和营销渠道正相关,商品价格影响转化率,那么现在确定转化率的波动。找出平时的转化率(譬如20%),预估提价后的转化率变化。假设各类型用户对价格敏感度不同,那么将用户划分忠诚、普通、羊毛... 不同用户层次数量不同,反应不同。忠诚用户转化率变化极低,羊毛几乎不会转化... 这些数据可以凭借经验做出假设,最后汇总
- 核心:启发思考驱动
- 优点:当没有直观数据或线索能分析时,以假设先行的方式进行推断,这是一个论证的过程
- 应用:更多是一种思考方式,假设—验证—判断
- 须知:可以假设前提、概率、比例等,一切都能假设
很多时候我们有数据,但不知道怎么应用,就是因为缺乏了一个有效性的方向,这个方向可以称为目标指数。通过将数据加工成指数,达到聚焦的目的
1. 线性加权:w1*用户忠诚度 + w2*用户贡献金额 + w3*用户社交推广 = 用户价值
2. 反比例:有用户7-9三个月的消费次数(分别记为x1、x2、x3),计算用户的忠诚指数y
- y = (1-1/x1) + (1-1/x2) + (1-1/x3) 达到一种收敛的效果
- y = w1*(1-1/x1) + w2*(1-1/x2) + w3*(1-1/x3) 若认为9月的消费次数更重要(更接近当前时间),可以结合线性加权
- y = 1-k/x 当k>1时,可以减缓它的收敛速度
- y = x1/ (x1+1) 消费1次即为0.5,给了很大的跃迁
3. log:有文章发布时间、UV(Unique Visitor,不计重复的访客数。可以通过标题党来提高)、评论,计算文章的热度
- UV+评论+时间热度衰减
- 时间热度衰减:设立一个初始时间(如平台启动时间、文章最早发布时间),拿文章发布时间-初始时间,再除以一个常数(如10),即得到时间热度,数值越大,说明离现在的时间越近,时间热度越高
- 热度:log(w1*UV+w2*评论) 加了log后,哪怕有水军使UV和评论特别高,热度也不会很夸张
- 最终结果 = 热度+时间热度衰减
反比例是为了让数据收敛到0-1,log是为了让数据减小
- 核心:目标驱动
- 优点:目标驱动力强,对业务有一定的指导作用。一旦设立指数,不宜频繁变动
- 应用:假设法是缺乏有效的数据,指数法是无法利用数据而将其加工成可利用的
- 须知:没统一的标准,依赖于本身对于数据敏感度的把握
- 核心:只抓重点
- 优点:和业务、KPI紧密相关,几乎花费最少的经历就能达到不错的效果,性价比很优
- 应用:存在于几乎所有领域
- 须知:在条件允许的情况下,数据分析依旧不能放弃全局,否则会让思路变得狭隘
好的数据指标,一定是比例或者比率;好的数据分析,一定会用到对比
例:节日大促,女生消费占比从60%变为70% ——> 女生节日爱消费
这个结论是有问题的,占比提高了不代表绝对值提高了。某商品平时销售额100万女生占60万,节日销售额80万女生占56万,女生真的消费变高了?(谁说节日销售额会提高?别忘了竞争对手)
- 核心:挖掘数据规律
- 优点:可以发现很多数据间的规律,可以与任何思维技巧结合,比如多维对比、象限对比、假设对比等
- 应用:一次合格的分析一定要用到n次对比
- 核心:流程化思考
- 优点:单一的漏斗分析没用,要和其他分析思维结合,比如多维、对比
- 应用:涉及到变化和流程的都能用
- 须知:单一的转化率没用
为什么啤酒与尿布是错的?