深度学习通常又需要哪些数学基础?深度学习里的数学到底难在哪里?通常初学者都会有这些问题,在网络推荐及书本推荐里,经常看到会列出一系列数学科目,比如微积分、线性代数、概率论、复变函数、数值计算、优化理论、信息论等等。这些数学知识有相关性,但实际上按照这样的知识范围来学习,学习成本会很久,而且会很枯燥,本章我们通过选举一些数学基础里容易混淆的一些概念做以介绍,帮助大家更好的理清这些易混淆概念之间的关系。
1.11 变量与随机变量有什么区别?随机变量(random variable):表⽰随机现象(在⼀定条件下,并不总是出现相同结果的现象称为随机现象)中各种结果的实值函数(⼀切可能的样本点)。例如某⼀时间内公共汽⻋站等⻋乘客⼈数,电话交换台在⼀定时间内收到的呼叫次数等,都是随机变量的实例。随机变量与模糊变量的不确定性的本质差别在于,后者的测定结果仍具有不确定性,即模糊性。
变量与随机变量的区别:当变量的取值的概率不是1时,变量就变成了随机变量;当随机变量取值的概率为1时,随机变量就变成了变量。
1.12 随机变量与概率分布的联系?⼀个随机变量仅仅表⽰⼀个可能取得的状态,还必须给定与之相伴的概率分布来制定每个状态的可能性。⽤来描述随机变量或⼀簇随机变量的每⼀个可能的状态的可能性⼤⼩的⽅法,就是 概率分布(probability distribution)。随机变量可以分为离散型随机变量和连续型随机变量。
相应的描述其概率分布的函数是:概率质量函数(Probability Mass Function, PMF):描述离散型随机变量的概率分布,通常⽤⼤写字⺟ P表⽰。概率密度函数(Probability Density Function, PDF):描述连续型随机变量的概率分布,通常⽤⼩写字⺟p 表⽰。
1.12.1 离散型随机变量和概率质量函数问: 何时采⽤正态分布?
答: 缺乏实数上分布的先验知识, 不知选择何种形式时, 默认选择正态分布总是不会错的, 理由如下:1. 中⼼极限定理告诉我们, 很多独⽴随机变量均近似服从正态分布, 现实中很多复杂系统都可以被建模成正态分布的噪声,即使该系统可以被结构化分解.2. 正态分布是具有相同⽅差的所有概率分布中, 不确定性最⼤的分布, 换句话说, 正态分布是对模型加⼊先验知识最少的分布.此处, 是⼀个精度矩阵。