我的数学笔记

常用的一些数学知识,备查。

微积分

极限证明

常见极限及证明请看极限专题

变换的小技巧

nnlogann:logann=logann

 

放缩技巧

不等式证明请看不等式证明专题

中项

等差中项>等比中项>调和中项

a>b>0,有

a+b2>ab>2aba+b

绝对值不等式:

|a||b||a+b||a|+|b|

指数的放缩:

an1<a1n(a>1)
an>(a1)24n2

分母二次式缩小:保留最高次项,系数变小。

5n103(3n2+2n4)5n3(3n24)5n32n2

迭代数列放缩求上界:

xn=c+xn1x1=c

上界是c+1 证明:若 xn<c+1

xn+1=c+xn<c+2c+1=c+1

根据数学归纳法知成立。

阶乘

1+12!+13!++1n!<1+12+122++12n1=212n1<2

另外一种放缩方法

1+12!+13!++1n!<1+12×1+13×2++1n×n1=1+1112+1213++1n11n=21n

统计部分

描述样本

无偏估计:无偏估计是通过样本估计总体参数时的一种无偏推断,其意义是多次重复下,估值的平均值接近总体真值。

方差

方差是描述样本变异离散程度的变量,可以用来表示数据波动的情况。方差越大,数据的波动性越大。

总体方差用 σ2 表示,计算公式为:

Var(X)=E[(XX¯)2]
σ2=Var(X)N

其中,X是变量,μ 是总体均值,N 是总体大小。

实际情况中,总体难以得到,以样本数据代替总体,样本方差用 S2表示,计算公式为:

S2=(XX¯)2n1

其中,X 是变量,X¯ 是样本均值,n 是样本大小。

R2

R方(R-squared)也叫可决系数(Coefficient of Determination),用来描述模型对变量的拟合程度,可用于一般回归模型(随机森林等)和线性回归模型中。R方越接近1,说明模型的预测值和观测值越接近。

R2=1SSresSStotal

其中 SSres是总残差平方和(residual sum of squares), SStotal是总平方和(total sum of squares)

SSres=(yifi)2
SStotal=(yiy¯)2

其中 yi 是观测值,fi是模型预测值, y¯ 是观测值的平均值。

当模型拟合效果非常好的时候,例如完美预测每一个值 fi=yi ,那么会得到 R2=1 ,如果拟合效果非常差,比如一种零模型情况所有的拟合值都是 y¯,那么我们会得到 R2=0 。某种意义上来说,可以将R方视为预测值偏离观测值的程度,如果偏离的程度很大,那么就会出现 R2<0 的情况。

特别的,对于一元线性回归函数,我们有

R2=[(xx¯)(yy¯)]2(xx¯)2(yy¯)2

该公式通过公式???中代入一元线性回归模型斜率和截距的公式,就可以得到。

相关

研究两个变量之间的关系,可以使用简单相关系数,用r表示

r=Cov(X,Y)Var(X)Var(Y)

Cov(X,Y)为变量X,Y的协方差

Cov(X,Y)=E[(XE[X])(YE[Y])]

相关系数r描述了两个变量线性相关的程度,绝对值越大,线性相关性越好。

假设有三个变量X,Y,Z,且发现r(X,Y)<r(X,Z),那么有r(X,Y)<r(X,Y+Z)<r(X,Z)

相关和回归的方法选择

相关和回归的方法选择

模型评估

均方根误差RMSE(root mean square error)

RMSE=(y^ty¯t)2n