我的数学笔记
常用的一些数学知识,备查。
微积分
极限证明
常见极限及证明请看极限专题
变换的小技巧
放缩技巧
不等式证明请看不等式证明专题
中项
等差中项>等比中项>调和中项
设,有
绝对值不等式:
指数的放缩:
分母二次式缩小:保留最高次项,系数变小。
迭代数列放缩求上界:
上界是
证明:若
根据数学归纳法知成立。
阶乘
另外一种放缩方法
统计部分
描述样本
无偏估计:无偏估计是通过样本估计总体参数时的一种无偏推断,其意义是多次重复下,估值的平均值接近总体真值。
方差
方差是描述样本变异离散程度的变量,可以用来表示数据波动的情况。方差越大,数据的波动性越大。
总体方差用 表示,计算公式为:
其中,是变量, 是总体均值, 是总体大小。
实际情况中,总体难以得到,以样本数据代替总体,样本方差用 表示,计算公式为:
其中, 是变量, 是样本均值, 是样本大小。
R方(R-squared)也叫可决系数(Coefficient of Determination),用来描述模型对变量的拟合程度,可用于一般回归模型(随机森林等)和线性回归模型中。R方越接近1,说明模型的预测值和观测值越接近。
其中 是总残差平方和(residual sum of squares), 是总平方和(total sum of squares)
其中 是观测值,是模型预测值, 是观测值的平均值。
当模型拟合效果非常好的时候,例如完美预测每一个值 ,那么会得到 ,如果拟合效果非常差,比如一种零模型情况所有的拟合值都是 ,那么我们会得到 。某种意义上来说,可以将R方视为预测值偏离观测值的程度,如果偏离的程度很大,那么就会出现 的情况。
特别的,对于一元线性回归函数,我们有
该公式通过公式中代入一元线性回归模型斜率和截距的公式,就可以得到。
相关
研究两个变量之间的关系,可以使用简单相关系数,用r表示
Cov(X,Y)为变量X,Y的协方差
相关系数描述了两个变量线性相关的程度,绝对值越大,线性相关性越好。
假设有三个变量,且发现,那么有。
相关和回归的方法选择
见相关和回归的方法选择
模型评估
均方根误差RMSE(root mean square error)