# 重要知识点梳理
# 五种重要的分布
# 1. 二项分布(Binomial Distribution)
定义
- 适用于独立重复伯努利试验(每次试验只有成功或失败两种情况)。
- 统计成功次数。
参数
- X∼Bin(n,p)$$其中: - n是试验次数。 - p是单次试验成功的概率。
其中,$$\binom {n}{k} = \frac {n!}{k!(n-k)!}$$ 是组合数。
性质
- 期望(均值):E(X)=np
- 方差:Var (X)=np (1−p)
- 应用场景:
- 投掷 n 次硬币,统计正面出现的次数。
- 在 100 个产品中,计算有缺陷产品的数量(假设每个产品的缺陷概率是 p)。
- 在一次市场调查中,计算支持某个品牌的顾客数量。
# 2. 泊松分布(Poisson Distribution)
定义
- 适用于单位时间或单位空间内,独立随机事件的发生次数。
- 例如:某个银行 1 小时内接到的客户电话数量。
参数
- X∼Pois (λ),其中 λ 是单位时间 / 空间内的平均发生次数。
概率质量函数(PMF)
性质
- 期望:E (X)=λ
- 方差:Var (X)=λ
- 泊松近似:当 n 很大、p 很小(np=λ),二项分布可用泊松分布近似:$$Bin (n,p)≈Pois (λ)$$
应用场景
- 单位时间内的电话呼入数量。
- 单位面积内的细菌数。
- 交通流中每分钟通过某点的车辆数。
# 3. 均匀分布(Uniform Distribution)
定义
- 适用于在区间 [a,b] 内,每个值的概率完全相同。
- 分为离散和连续两种情况,我们这里讲连续均匀分布。
参数
- X∼U (a,b),即 XXX 在区间 [a,b] 内均匀分布。
应用场景
- 随机生成一个 0 到 1 之间的随机数(计算机通常用均匀分布生成伪随机数)。
- 随机选择某个时间点(假设在某个时间段内,每个时间点的概率相同)。
- 在模拟实验中,生成随机数据。
# 4. 指数分布(Exponential Distribution)
定义
- 适用于事件发生的时间间隔。
- 例如:两次客户电话呼入之间的时间间隔。
应用场景
- 电话呼入的时间间隔。
- 电子元件的寿命(假设故障率恒定)。
- 地震发生的时间间隔。
# 5. 正态分布(Normal Distribution)
定义
- 适用于自然界和社会现象中的大量数据,如身高、体重、考试成绩等。
应用场景
- 人的身高、体重、智商分数等。
- 误差分析:测量误差和噪声往往服从正态分布。
- 金融市场收益的近似分布。
# 全概率公式与贝叶斯公式
# 一维连续型随机变量及定义
# 期望与方差
期望
方差
常见期望与方差
# 一些定理
# 切比雪夫定理
# 一些符号的含义
- 上界与下界
✅ 一、 —— 大 O 符号(上界)
含义:
最多有多快增长
表示函数的增长速度 不会超过某个量级
举个例子:
意思是:当 n 很大时,f (n) 的增长速度最多就像 n 这样。
✅ 二、—— 大 Ω 符号(下界)
含义:
至少有多快增长
表示函数的增长速度 最小不会低于某个量级
举个例子:
意思是:f (n) 至少会像 n 一样快增长,不可能比它慢太多。
# 📚 二项式展开公式(Binomial Theorem)
# 🎯 公式内容
对于任意整数 ,都有:
[
]
即:
[
]
其中:
- 是组合数,表示 “从 个元素里选 个的方式数”,公式为:
[
]
# ✏️ 小例子
# 当 时:
[
]
展开过程:
# 当 时:
[
]
展开过程:
# 💡 更一般的形式
对于一般的 :
[
]
特点:
- 每一项中 和 的指数之和为 ;
- 系数是组合数 。
# ✅ 在应用中的例子
如果展开 ,就是将 换成 :
[
]
- 其中每项有符号变化 。
# 📋 小结
项目 | 内容 |
---|---|
基本公式 | |
组合数 | \binom{n}{k} = \frac{n!} |
应用 | 展开 , , |
# 📚 泰勒展开(Taylor Series)总结笔记
# 🎯 什么是泰勒展开?
泰勒展开是一种用多项式(无穷级数)来近似描述一个光滑函数的方法。
简单说:
- 把函数 在某点(通常是 或其他 )附近,
- 用一次项、二次项、三次项…… 无限多项式的方式来逼近表达,
- 每一项和函数在那个点的导数值有关。
# ✅ 泰勒展开公式
如果函数 在点 处有无穷多个连续导数,那么:
[
]
也可以用求和写成:
[
]
- 表示函数在 点处的第 阶导数;
- 是 的阶乘。
# 🛠️ 特别情况:Maclaurin 展开
如果选择 ,泰勒展开就变成了 Maclaurin 展开:
[
]
# ✏️ 常见例子
# 1. 指数函数 的展开
[
]
# 2. 正弦函数 的展开
[
]
- 注意奇次幂、正负号交替。
# 3. 余弦函数 的展开
[
]
- 偶次幂、正负号交替。
# 💡 直观理解
- 低阶展开(只取前几项)给出粗略近似;
- 多取几项,展开多项式的近似效果越来越好;
- 是分析复杂函数、小扰动分析、算法近似估计的重要工具。
# 📋 小总结表
项目 | 内容 |
---|---|
基本公式 | ( f(x) = \sum \fracf(a)}{n!}(x-a)^n ) |
特例 | (a = 0) 时为 Maclaurin 展开 |
经典例子 | ( e^x, \sin(x), \cos(x) ) |
作用 | 近似复杂函数,分析变化 |
# 等比数列求和公式
# ✅ 有限项求和公式
如果你只求前 (n) 项(从第 0 项到第 ( n-1 ) 项),总和是:
[
]
- 适用于 ( )
- (S_n) 是前 ( n ) 项的总和
# ✅ 无限项求和公式
当 (|r| < 1) 时,等比数列可以无限加下去,并且求和收敛。
无穷求和公式是:
[
]
- (a) 是首项
- (r) 是公比
- 注意:如果 (|r| \geq 1),这个和就发散了(不会收敛)。
# 📚 常用数学术语英文总结
# 🔵 基本性质类
中文 | 英文表达 | 简单解释 |
---|---|---|
单调(递增) | monotonic (increasing) | 总是越走越大,不下降 |
单调(递减) | monotonic (decreasing) | 总是越走越小,不上升 |
有界 | bounded | 不会无限大或无限小,被某些值夹住 |
收敛 | converge | 趋向某个固定值,不再乱跳 |
发散 | diverge | 越来越大或越来越乱,不收敛 |
迭代 | iterate | |
# 🔵 概率与不等式类
中文 | 英文表达 | 简单解释 |
---|---|---|
大数法则 | Law of Large Numbers | 平均值最终接近期望值 |
马尔可夫不等式 | Markov Inequality | 上界某事件概率的方法 |
切比雪夫不等式 | Chebyshev Inequality | 用方差给概率上界的方法 |
集中性 | concentration | 随机变量聚集在期望附近的现象 |
尾部概率 | tail probability | 随机变量偏离很远的概率 |
# 🔵 公式与操作类
中文 | 英文表达 | 简单解释 |
---|---|---|
期望 | expectation / expected value | 平均意义上的结果 |
方差 | variance | 描述波动大小 |
求和 | summation | 加总所有项 |
积分 | integration | 累积量 / 连续求和 |
取对数 | take logarithm | 取 log,比如 log (x) |
取指数 | take exponent | 取 exp,比如 (e^x) |
# ✨ 小总结
简单理解:
increasing ➔ 变大,bounded ➔ 不爆炸,converge ➔ 趋向稳定,concentration ➔ 不乱跑!
# 📚 常见数学符号速查表
# 🔵 运算符号类
符号 | 名称 | 英文读法 | 作用 |
---|---|---|---|
() | 求和符号 | summation | 把一堆数加在一起 |
() | 连乘符号 | product | 把一堆数乘在一起 |
() | 积分符号 | integral | 连续求和(累加量) |
# 🔵 逻辑符号类
符号 | 名称 | 英文读法 | 作用 |
---|---|---|---|
() | 全称量词 | for all | 对所有情况都成立 |
() | 存在量词 | there exists | 存在至少一个情况成立 |
() | 否定符号 | not | 取反(否定命题) |
() | 蕴含符号 | implies | 如果... 那么... |
() | 等价符号 | if and only if | 当且仅当 |
# 🔵 概率统计符号类
符号 | 名称 | 英文读法 | 作用 |
---|---|---|---|
() | 概率 | probability | 某个事件发生的可能性 |
() | 期望 | expectation | 随机变量的平均值 |
() | 方差 | variance | 随机变量的波动大小 |
() | 概率测度 | probability measure | 通用的概率表示 |
# 🔵 集合相关符号
符号 | 名称 | 英文读法 | 作用 |
---|---|---|---|
() | 并集 | union | 集合 A 或集合 B 中的元素 |
() | 交集 | intersection | 集合 A 和集合 B 共有的元素 |
() | 真子集 | proper subset | A 是 B 的一部分但不等于 B |
() | 子集 | subset | A 是 B 的子集,可以等于 B |
# 📐 范数(Norm)总结笔记
范数是一种用于度量向量 “大小” 或 “距离” 的数学工具,在流式算法、机器学习和信号处理等场景中广泛使用。
# ✅ 常见范数定义
# 1. L₁ 范数(曼哈顿距离 / 稀疏性度量)
1 | ‖x‖₁ = |x₁| + |x₂| + ... + |xₙ| |
- 含义:所有元素绝对值之和
- 应用:误差总量、频率总和、稀疏性建模
# 2. L₂ 范数(欧几里得范数 / 能量)
1 | ‖x‖₂ = √(x₁² + x₂² + ... + xₙ²) |
- 含义:向量长度(直线距离)
- 应用:最小二乘法、波动性、能量度量
# 3. L∞ 范数(最大范数)
1 | ‖x‖∞ = max(|x₁|, |x₂|, ..., |xₙ|) |
- 含义:向量中最大绝对值
- 应用:控制最大误差,最坏情况分析
# 4. L₀ “范数” (非零项计数)
1 | ‖x‖₀ = 向量中非零元素的个数 |
- 注意:严格来说它不是数学意义上的范数
- 应用:统计不同元素个数、稀疏建模
# 📏 范数之间的大小关系
1 | ‖x‖∞ ≤ ‖x‖₂ ≤ ‖x‖₁ |
适用于所有向量
x
。说明:- L∞ 控制最坏情况;
- L₂ 衡量整体波动;
- L₁ 是 “总量”。
# 🧠 与 Sketch 的关系
在流式算法中:
- 数据流被表示成频率向量
f ∈ ℝⁿ
- 范数用来衡量 sketch 与真实向量之间的误差
- 常见误差控制:
‖f - f̂‖₁ ≤ ε‖f‖₁
‖f - f̂‖∞ ≤ ε‖f‖₁
‖f - f̂‖₂ ≤ ε‖f‖₂
# 🧾 示例类比
若向量 x = [3, -2, 4]
:
范数类型 | 结果 | 说明 |
---|---|---|
‖x‖₁ | 9 | 总体绝对值之和 |
‖x‖₂ | ≈5.38 | 直线距离(平方根和) |
‖x‖∞ | 4 | 最大的单个元素的绝对值 |