财务分析比赛学习(1)大数据部分
本博文记录的主要为之后的财务分析比赛所需要的一些基础知识的大纲用于简单查阅。也是一个快速厘清财务知识的系列
大数据- 大数据特征
- 麦肯锡全球研究所
- 海量的数据规模
- 快速的数据流转
- 多样的数据类型
- 价值密度低
- BM:5V特征
- Volume
- Velocity
- Value
- Veracity
- Variety
- 麦肯锡全球研究所
- 大数据分类
- 结构化数据
- 能够用数据或统一的结构加以表示的信息,称之为结构化数据
- 任何可以以固定格式存储,访问和处理的数据都被称为“结构化”数据
- 非结构化数据
- 是指其字段长度可变,并且每个字段的记录又可以由可重复或不可重复的子字段构成的数据库
- 半结构化数据
- XML、HTML文档就属于半结构化数据。它一般是自描述的,数据的结构和内容混在一起,没有明显的区分。
- 结构化数据
- 大数据最核心的价值
- 预测
- 大数据是继云计算、物联网之后T产业又一次颠覆性的技术变革。
- 大数据技术的战略意义
- 对数据进行专业化处理
- 大数据发展趋势
- 大数据自助服务
- 智能应用
- 十大数据挖掘算法
- C4.5算法:是机器学习算法中的一种分类决策树算法
- K-Means算法:是一个聚类算法
- SupportVectorMachine(支持向量机):是一种监督式学习的方法
- Apriori算法:是一种最有影响的挖掘布尔关联规则频繁项集的算法
- 最大期望
- (EM)算法:是在概率模型中寻找参数最大似然估计的算法
- PageRank根据网站的外部链接和内部链接的数量和质量来衡量网站的价值。
- Adaboost算法:是一种迭代算法,其核心思想是针对同一个训练集训练不同的分类器(弱分类器),然后把这些弱分类器集合起来,构成一个更强的最终分类器(强分类器)。
- K最近邻(KNN)分类算法:如果一个样本在特征空间中的K个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。
- 朴素贝叶斯模型发源于古典数学理论,有着坚实的数学基础,以及稳定的分类效率。
- 类与回归树(CART)在分类树下面有两个关键的思想。第一个是关于递归地划分自变量空间的想法;第二个想法是用验证数据进行剪枝。
- 大数据的应用实践
- 电商大数据结合用户画像等进行精准营销
- 大数据在金融行业应用范围较广
- 医疗行业拥有大量的病例,病理报告,治愈方案,药物报告等
- 交通大数据:合理进行道路规划
- 教育大数据:因材施教,改善教育教学
- 未来大数据会应用到农牧渔领域,帮助农业降低菜贱伤农的概率
- 用于改善安全和执法,大数据现在已经广泛应用到安全执法的过程当中
- 大数据应用实例
- 国家大数据(贵州)综合试验区展示中心
- 京东大数据
大数据与财务
- 大数据在财务共享服务中可能应用场景
- 预测信用额度策略对销售收入的影响
- 洞察客户信用风险
- 分析客户付款行为
- 评估客户信用等级
- 进行预算分析及财务预测
- 进行成本盈利分析
- 进行绩效分析
- 大数据时代的财务价值
- 传统业务支持
- 财务预测、决策支持
- 经营分析、业绩评价
- 风险识别、加强控制
- 新型业务拓展
- 数据资产的评估
- 数据交易
- 数据搜索
- 传统业务支持
大数据分析案例分享
- 企业面临的问题
- 向管理会计转型缺少信息支撑手段
- 企业发展不适应时代变化
- 信息成本高数据利用率低
- 报表数量多质量不高
- 基础数据治理难度高
- 系统自动化程度低
- XBRL标准化+大数据