【不周山之数据科学】基础知识 微积分

本文主要介绍微积分中与机器学习相关的重要概念,方便不懂的时候进行查阅。


更新历史

  • 2017.03.16: 并入【不周山之数据科学】系列
  • 2017.02.08: 完成初稿
  • 2017.02.06: 开始编写

写在前面

世界是一个复杂但逻辑高度自洽的体系,数学用简单且无二义的符号来描述世界,所以如果我们连科学家用来建模世界的『语言』都看不懂的话,更不用说去理解这个世界了。

但是数学要怎么学呢?首先我认为现在的数学教学并不是特别好的方法,学了一堆『方法』,却不知道有什么『目标』,轻则让人迷失方向,重则丧失对数学仅存的那点兴趣。数学这栋大厦已经足够高耸入云了,还是先弄清楚我们需要什么,再按图索骥比较好。

正如参考链接中所说:

学会这样一种自下而上的,多级抽象的思考方式,个人认为是数学带给我们的最重要财富。数学不是令人生畏的满屏公式,不是折磨人的重复计算,是有关“如何对概念进行抽象”的精巧艺术。

就让我们从微积分开始,走入奇妙且简洁的数学世界吧!

注:部分知识点会简单带过,主要是介绍最基础和涉及机器学习相关的内容

函数、极限与连续

初等函数在其定义域内都是连续的,基本初等函数有以下五种:

  1. 幂函数:$y=x^\mu\;(\mu \in R)$
  2. 指数函:$y=a^x\;(a>0 \;且\; a \neq 1)$
  3. 对数函数:$y=log_ax\;(a>0 \;且\; a \neq 1)$,特别当 $a=e$ 时,记为 $y = ln\; x$
  4. 三角函数:如 $y=sin\;x, y=cos\; x, y=tan\; x$ 等
  5. 反三角函数:如 $y=arcsin\;x, y=arccos\; x, y=arctan\; x$ 等

由常数和基本初等函数经过有限次的四则运算和有限次的函数复合步骤所构成并可用一个式子表示的函数,称为初等函数

函数与函数表达式

函数即『对应关系』本身. 对应关系是抽象的, 我们看到的解析表达式 $y=f(x)$ 正是为了表述、体现那个看不到摸不着的关系而给出的具象。我们要特别重视公式法表示函数时的不同表现形式。

常见的函数表达式类型有:

  • 分段函数。求极限、连续性讨论、求导、积分
  • 幂指函数。形如 $u(x)^{v(x)}$ 的求极限与求导
  • 积分上限函数。形如 $\int_a^xf(x)dx$ 的求极限与求导
  • 隐函数
  • 参数方程确定的函数

关于收敛数列(极限存在)由两个性质:唯一性和有界性

无穷小

如果 $lim_{x \to \ast}f(x)=0$ ,则 $f(x)$ 为 $x \to \ast $ 时的无穷小(这里的 * 可以代表常数、无穷大、单侧逼近的各种情形)

这里需要注意的是:

  • 无穷小是一个函数,且必须指名具体的条件,也就是 $x \to *$
  • 等价无穷小 (同阶无穷小)、高阶无穷小 (低阶无穷小) 讲的是函数趋于 0 的速度的比较(比如 $x \to 0$ 时 $x^3$ 趋于 0 的速度比 $x^2$ 要快,故 $x \to 0$ 时 $x^3$ 是较 $x^2$ 高阶的无穷小)
  • 多项式函数中,次数最低的项决定无穷小的阶数,或者说决定其速度的数量级(如 $x \to 0$ 时 $3x^3 + 2x$ 与 $x$ 是同阶无穷小)。无穷大的情形则相反,次数最高的项起决定作用。

常见的等价无穷小

当 $x \to 0$ 时,

$$x \sim e^x -1 \sim ln(1+x) \sim sin\;x \sim tan\;x \sim arcsin\;x \sim arctan\;x$$

$$1-cos\; x \sim \frac{x^2}{2}$$

$$(1+x)^a-1 \sim ax$$

具体的验证可以用洛必达法则或泰勒展开,比如:

对于 $sin\;x$,由泰勒展开可得 $sin\;x=x-\frac{1}{3!}x^3+\frac{1}{5!}x^5-\frac{1}{7!}x^7+\cdots$,可见 $x \to 0$ 时,$sin\; x = x + o(x)$,即 $sin\;x \sim x$

对于 $cos\;x$,由泰勒展开可得 $cos\;x=x-\frac{1}{2!}x^2+\frac{1}{4!}x^4-\frac{1}{6!}x^6+\cdots$,可见 $x \to 0$ 时 $cos\;x-1$ 为无穷小,且 $cos\;x-1= -\frac{1}{2!}x^2+o(x^2)$,即 $cos\;x-1 \sim -\frac{x^2}{2!}$

其他的也可以用这样的方法证明

$1^\infty$ 型极限

一个 $1^\infty$ 型极限的常见例子是 $lim_{x \to \infty}(1+\frac{1}{x})^x=e$ ,其一般形式是

$lim_{x \to \ast}(1+\alpha(x))^{\beta(x)}=exp\{lim_{x \to \ast} \alpha(x)\beta(x)\}$

其中 $x \to \ast$ 时,$\alpha(x) \to 0,\;\beta(x) \to \infty$

具体的推导过程是利用幂指函数的求界限方式,并且可以利用 $\alpha(x) \to 0$ 时 $ln(1+\alpha(x)) \sim \alpha(x)$ 这一性质得到上面的式子。

最后注意一个重要性质:有界函数与无穷小的乘积仍为无穷小

连续

说一个函数连续, 就是其曲线连续、不断开。判断连续或间断, 都只需要抓住一个表达式

$lim_{x \to x_0}f(x)=f(x_0)$

如果上面的式子满足如下情况,则认为是间断:

  1. $f(x_0)$ 不成立,即函数在 $x_0$ 处无定义
  2. $lim_{x \to x_0}f(x)$ 不成,即函数在 $x_0$ 无极限
  3. 等号 = 不成立

这里第一类间断是可修复的间断,而第二类则不是。另外零点定理介值定理, 一定要结合几何意义去理解。

最大值和最小值定理就是说在闭区间上的连续函数 $f(x)$ 一定是有上下界的。

介值定理就是说在闭区间上的连续函数 $f(x)$,如果左右端点的取值不同,例如 $f(a)=A,f(b)=B$,那么区间中肯定有一点的函数值能够取到 $[A,B]$ 之间的任何一个值。

零点定理就是说在闭区间上的连续函数 $f(x)$,如果左右端点的取值异号,例如 $f(a)=A > 0,f(b)=B < 0$,那么区间中肯定有一点的函数值为 0。

导数与微分

导数的几何意义就是曲线在某点的切线的斜率,反应了变化的快慢,理解这个很重要,后面的偏导数的理解也类似。如果用物体的运动来解释的话,导数就是物体在那个时刻的加速度了。

通俗地说,可导函数曲线是光滑的,『尖点』处不可导,定义式为:

$$ f'(x_0)= \frac{f(x)-f(x_0)}{x-x_0}$$

与连续的关系是:可导必定连续; 连续不一定可导(比如函数在尖点处连续但不可导)

罗尔中值定理就是说对于在区间 $(a,b)$ 上的连续可导函数 $f(x)$,若左右端点的函数值相等,那么区间内至少有一个点满足它的导数为 0,即 $f’(\epsilon)=0,\;\epsilon \in (a,b)$

拉格朗日中值定理就是说对于在区间 $(a,b)$ 上的连续可导函数 $f(x)$,区间内至少有一个点满足 $f’(\epsilon)=\frac{f(a)-f(b)}{a-b}, \; \epsilon \in (a,b)$。该定理就没有罗尔中值定理的条件那么严格了,所以后者是前者的一个特殊情况。拉格朗日中值定理的几何意义如下,曲线在 C 点处的切线平行于弦 AB

柯西中值定理就扩展到区间 $(a,b)$ 上的两个连续可导函数 $f(x)$ 和 $F(x)$,区间内至少有一个点满足 $\frac{f’(\epsilon)}{F’(\epsilon)} = \frac{f(a)-f(b)}{F(a)-F(b)},\;\epsilon \in (a,b)$

基本求导方法

  • 对于分段函数来说,分段点的导数要用定义来求
  • 对于幂指函数来说,幂指函数本质上是复合函数
  • 对于隐函数来说,隐函数求导实际上就是复合函数求导
  • 对于参数方程函数来说,实际上也是复合函数的求导,要特别注意求二阶导数

洛必达法则很重要,因为很多时候我们总是会遇到各种不同特殊形式的未定式,它们的极限可以试试使用洛必达法则来求。

在满足条件的前提下,我们可以先对分子分母求导然后求极限,即 $lim_{x \to x_0}\frac{f(x)}{g(x)}=lim_{x \to x_0}\frac{f'(x)}{g'(x)}$

导数的应用

微分中值定理如何理解? 极值与最值的区别?

  • 恒等式或不等式的证明
  • 求函数的极值或最值,单调性、凹凸性判别,拐点
  • 极值是局部的
  • 最值是全局的
  • 驻点是可能的极值点
  • 极值点不一定是驻点。

驻点:函数 $f(x)$ 一阶导数为 0 的点,根据它的正负可以判断函数的单调性,大于 0 为单调递增

拐点:函数 $f(x)$ 二阶导数为 0 的点,根据它的正负可以判断函数的凹凸性,大于 0 为凹的

常微分方程

求解 $y’’+py’+qy=0$,这里 $p, q$ 是常数。

对应的特征方程 $r^2+pr+q=0$,得特征根 $r_1, r_2$

  1. 若 $r_1 \ne r_2$,则通解 $y=C_1e^{r_1x}+C_2e^{r_2x}$
  2. 若 $r_1 = r_2 = r$,则通解 $y=(C_1+C_2x)e^{rx}$
  3. 若 $r_{1,2} = \alpha \pm i\beta$,则通解 $y=e^{\alpha x}(C_1cos\;\beta x+C_2sin\;\beta x)$

不定积分与定积分

我们需要理解定积分的几何意义以及换元积分法和分布积分法的实质分段函数的定积分积分中值定理也是需要掌握的内容。

换元积分法

又叫第一类换元法,用来处理形如 $\int f(\varphi(x))g(x)dx$ 的积分。这类积分的特点
是: 被积表达式一般是两个函数的乘积,其中一个为复合函数,且其内函数 $\varphi(x)$ 的导数往往是剩下那个函数 $g(x)$,即 $\varphi ‘(x)=g(x)$,或者说 $d(\varphi(x))=g(x)dx$,从而

$$\int f(\varphi(x))g(x)dx=\int f(\varphi(x))d(\varphi(x))$$

再把 $\varphi(x)$ 作为一个整体变量 $u$,以 $\int f(u)du$ 这样的积分进行计算。

分部积分法

分部积分法所处理的积分,其被积表达式也一般是两个函数的乘积,这两个函数是不同类型的初等函数,或者说通常是幂、指、对、三角、反三角等函数中的某两个。分部积分法的关键在于其中暗含了一次求导,使被积表达式中的一个函数得以『消失』或简化。

举个例子:

$$\int x^2e^xdx=\int x^2d(e^x)=x^2e^x-\int e^xd(x^2)=x^2e^x-\int 2xe^xdx$$

后移的函数 $x^2$ 可以被求导,继续这个过程,就可以完成积分:

$$\int x^2e^xdx=x^2e^x-\int 2xe^xdx=x^2e^x-2(xe^x-\int e^xdx)$$

积分中值定理

证明:若 $f(x),\;g(x)$ 都是可微函数,且当 $x \ge a$ 时,$|f’(x) \le g’(x)|$,则当 $x \ge a$ 时,$|f(x)-f(a)| \le g(x) - g(a)$

由 $x \ge a$ 时,$|f’(x) \le g’(x)|$ 有

$$\int_a^x|f'(x)|dx \le \int_a^xg'(x)dx$$

$$|\int_a^xf'(x)dx|\le \int_a^x|f'(x)|dx \le \int_a^xg'(x)dx$$

$$|\int_a^xf'(x)dx|=|[f(x)]_a^x|=|f(x)-f(a)|$$ $$\int_a^xg'(x)dx=[g(x)]_a^x=g(x)-g(a)$$

可得

$|f(x)-f(a)| \le g(x) - g(a)$

定积分的应用

需要了解元素法,定积分可以用于:

  • 求面积
  • 求弧长
  • 求旋转体体积
  • 计算做功问题

反常积分

积分 $\int_0^a\frac{1}{x^p}dx$,当 $p < 1$ 时收敛,当 $p \ge 1$ 时发散,其中 $a$ 为任意正数。

积分 $\int_0^{+\infty} \frac{1}{x^p}dx$,当 $p>1$ 时收敛,当 $p \le 1$ 时发散,其中 $a$ 为任意正数。

多元函数微分

梯度是一个向量:

$$\mathbf{grad}f(x_0,y_0)=\{f_x(x_0, y_0), f_y(x_0,y_0)\}$$

梯度概念的引入,简化了方向导数的计算表达式。在可微的条件下,方向导数

$$\frac{\partial f}{\partial \mathbf{\iota}}=f_x(x_0,y_0)cos\theta+f_y(x_0, y_0)sin\theta=\{f_x(x_0, y_0), f_y(x_0,y_0)\}\cdot\{cos\theta, sin\theta\}=\mathbf{grad}f(x_0,y_0)\cdot\mathbf{e_\iota}$$

梯度所指的方向,是函数值增加最快的方向。这也是用『梯度』一词来命名这个概念的缘由

$$\frac{\partial f}{\partial \mathbf{\iota}}=\mathbf{grad}f(x_0,y_0)\cdot\mathbf{e_\iota}=|\mathbf{grad}f(x_0,y_0)||\mathbf{e_\iota}|cos\langle \mathbf{grad}f(x_0,y_0), \mathbf{e_\iota}\rangle=|\mathbf{grad}f(x_0,y_0)|cos\langle \mathbf{grad}f(x_0,y_0), \mathbf{e_\iota}\rangle$$

当取定 $\mathbf{e_\iota}$ 与 $\mathbf{grad}f(x_0,y_0)$ 同方向时,方向导数取到最大值,且最大值为 $|\mathbf{grad}f(x_0, y_0)|$

无穷级数

级数 $\sum_{n=1}^\infty u_n=u_1+u_2+\cdots+u_n+\cdots$ 是无穷多项求和的问题。更多的时候是关注和的存在性,即收敛与否的问题。通常会转化为讨论前 $n$ 项和数列 $\{s_n\}$ 的敛散性,其中 $s_n\triangleq u_1+u_2+\cdots+u_n$

级数收敛的必要条件是 $lim_{n \to \infty}u_n = 0$,但反之不成立,比如调和级数 $\sum_{n=1}^\infty \frac{1}{n}$ 满足 $lim_{n \to \infty}u_n = 0$,但级数发散。

参考链接

捧个钱场?