lec6 Hypothesis Testingand Evaluation - 数据分析 - 计算机科学

# 🧪 一、统计研究类型以及一些概念

# 1. 研究的类型

观察性研究（Observational Study）
- 被动观察，不控制变量。
- 只能揭示相关性，不能说明因果。
- 例子：晒黑设备与皮肤癌、使用电脑时间与血压
- 简单的观察发生了什么，记录受试者的信息，不对受试者进行任何操作。
实验性研究（Experimental Study）
- 主动施加处理（treatment），设置对照组。
- 可以探究因果关系。
- 例子：限制计算机时间组 vs 放任组，比较血压。比如控制一个人的饮食，另一个人则不控制，即设置对照组。
- 在对受试者进行条件改变时，记录受试者信息，并在一定程度上控制研究条件。(如果考试时没有说记录则为错)

# 2. 实验设计 (Experimental design)

# 2.1🧪 组内设计（Within-subjects design）

每位被试者都要参与所有条件 / 水平的实验处理。
被试者不能分组。
适用于关注同一个人面对不同条件时的反应差异。
✅ 优点：
- 控制个体差异，统计功效较高。
- 样本需求量小。
⚠️ 缺点：
- 容易产生顺序效应（如疲劳、熟练），需进行随机化或对抗平衡设计。

# 2.2🧪 组间设计（Between-subjects design）

每位被试者只接受一个实验条件。
被试者被随机分配到不同组，每组只参与一个自变量的水平。
适用于避免交叉影响的研究（如用户界面偏好）。
✅ 优点：
- 没有顺序影响或学习效应。
⚠️ 缺点：
- 需要更多被试者。
- 个体差异可能影响结果，需通过随机分配平衡群组。

# 3. 实验中变量的介绍（Types of Variables）

类型	英文术语	定义	示例
自变量	Independent Variable	实验者主动控制、施加或更改的因素	施加在植物上的液体类型（如水、果汁）
因变量	Dependent Variable	受到自变量影响而发生变化的因素，实验所要观察和测量的对象	植物的生长高度或健康状况
控制变量	Controlled Variable	在实验过程中保持不变的所有其他条件，用于确保实验的公正性	土壤种类、花盆大小、植物种类、液体量等

# ✅ 变量作用详解

自变量是 “原因”：是你人为改变的条件，用来观察是否会对结果产生影响。
因变量是 “结果”：是你要测量的内容，用来看实验有没有效果。
控制变量是 “常量”：是需要保持一致的条件，以确保只有自变量在起作用。

# 4. 研究型问题 vs 原假设（Research Question vs Null Hypothesis）

# 🎯 研究型问题（Research Question, Q）

本质：提出一个探索性的因果关系问题
关注点： 自变量是否影响因变量
典型句式：
“如果改变了自变量，因变量是否也会发生变化？”
✅ 示例：
我将浇水频率从一天三次改为一天一次，这会不会影响花的生长？

# 🚫 原假设（Null Hypothesis, H₀）

本质：默认不存在影响或差异（对照参考）
假设： 改变自变量不会导致因变量发生变化
典型句式：
“自变量变化时，因变量不会变化。”
✅ 示例：
我假设浇水频率的改变对花的生长没有影响。

研究型问题为提出一个问题，而假设是提出一个结论，我们来佐证他是 true or false。

# 📌 总结对比

项目	研究型问题（Q）	原假设（H₀）
目的	提出一个待验证的因果问题	提出一个待否定的无效假设
内容	关注 “是否存在影响”	假设 “没有影响”
举例	改变浇水频率是否影响花的高度？	浇水频率不影响花的高度

# 🔍 二、检验方法

本堂课的目标是知道每一种检验的成立条件与什么情况下如何使用

# 1. 假设检验

# 1.1 原假设与备选假设的概念

项目	原假设 H₀	备择假设 H₁
中文名	原假设 / 零假设	备择假设 / 对立假设
含义	当前默认成立的观点，是检验的起点	提出一个新理论，若拒绝 H₀ 则接受 H₁
本质	现状（status quo），是我们暂时相信的假设	新观点、新理论、新模型，挑战原假设
数学符号	总是带有等号： `=` , `≤` , `≥`	总是不等： `≠` , `<` , `>`
举例	H₀: μ = 3	H₁: μ < 3
决策作用	拒绝 H₀ 才会考虑 H₁ 成立	不能直接接受 H₁，只能通过拒绝 H₀ 来间接支持 H₁
重要性	决策错误可能导致严重后果（Type I Error）	代表研究者真正想要证明的方向

# ✅ 辅助理解小贴士

原假设就像法院里 “被告无罪” 的假设，除非有证据足够强，否则不会轻易推翻。
备择假设是你要 “提出指控” 的观点，必须通过数据显著差异才可能成立。

# 1.2 假设验证的核心方式

# 📊 使用 P-value 判断假设成立与否

🔹 什么是 P-value？

P-value 是观察结果极端程度的度量，反映了在 H₀ 成立的前提下，观察到当前数据或更极端数据的概率。
越小的 p 值表示 H₀ 越不可信，拒绝 H₀ 的证据越强。

🔹 与显著性水平 α 的比较

P-value 和 α 的关系	含义	是否拒绝 H₀
p < α	有力证据反对 H₀（统计显著）	✅ 拒绝 H₀
p > α	证据不足，支持 H₀ 成立	❌ 不拒绝 H₀
p = α	边缘情况，难以下结论	⚠️ 不确定

常用的 α（显著性水平）为 0.05 或 0.01
α 表示可以接受的犯错概率（即错误拒绝 H₀ 的概率，Type I error）

# ⚖️ 决策表：H₀ 与 H₁ 的正确与错误决策

真实情况	决策	结果
H₀ 成立	接受 H₀	✅ 正确
H₀ 成立	拒绝 H₀	❌ 第一类错误（Type I error）
H₁ 成立	接受 H₀	❌ 第二类错误（Type II error）
H₁ 成立	拒绝 H₀	✅ 正确

# 📝 小结关键术语

术语	含义
α	可接受的第一类错误率（通常设为 0.05）
P-value	在 H₀ 成立的前提下，观察到当前或更极端数据的概率
Type I error	错误拒绝 H₀
Type II error	错误接受 H₀

# 2. t 检验（Student's t-test）总结笔记

# ✅ 目的：

判断两个样本或一个样本与理论值之间的平均值差异是否具有统计学显著性。

# 🔍 t-test 检验的逻辑

我们有两个样本，或者一个样本和一个给定值；
我们计算它们的平均值差；
我们想知道，这个差距在 “零差距”（即 H₀ 成立）的情况下出现的可能性大不大；
如果差距很大且不太可能是随机波动，就可以拒绝原假设 H₀，认为它们真的有区别。

# 📚 t-test 的常见类型

类型	用途	举例
One-sample t-test	样本 vs 一个理论平均值	测量一个药物效果是否和标准值 120 相比有变化
Independent two-sample t-test	比较两个独立样本均值	男生和女生的考试成绩是否存在显著差异
Paired t-test	比较配对样本的均值差	同一个人服药前后的血压差是否显著

# ⚠️ 使用前提（Assumptions）

条件	说明
样本独立	两组样本之间不能互相影响（配对 t 检验除外）
数据正态分布	数据在总体上接近钟型（高斯）分布，特别是样本量小的时候
方差相等（独立样本 t 检验需要）	两组数据波动不能差太多，可以用 F 检验或 Levene's test 检查

# 🧮 举个例子（Independent t-test）

我们测量了两组学生的数学成绩：

A 班：85, 87, 90, 91, 88
B 班：78, 79, 82, 80, 76

想知道这两组成绩的平均值是不是 “统计上有显著差异”。

用 t-test 得到：

均值差：10 分左右
p-value = 0.004 （远小于 0.05）

✅ 结论：差异显著，可以拒绝 H₀，认为 A 班成绩更好不是偶然的。

# 三、分类器模型评估四大指标

# 🧩 混淆矩阵（Confusion Matrix）

实际值＼预测值	Positive（s=1）	Negative（s=0）
Positive（g=1）	TP（真正）	FN（假负）
Negative（g=0）	FP（假正）	TN（真负）
	实际值（Ground Truth）
-------------------	---------------------	---------------
预测值（Prediction）	Positive（正）	Negative（负）
Positive（正）	TP（真正例）	FP（假正例，Type II）
Negative（负）	FN（假负例，Type I）	TN（真负例）

s = system (模型预测)，g = gold (真实标签)

# 📐 四个评估指标公式和含义：必考

# ✅ 1. Accuracy（准确率）

整体预测正确的比例

\text{Accuracy} = \frac{TP + TN}

👍 简单直观，但不适用于类别严重不平衡的问题。

# ✅ 2. Precision（精确率）

在预测为正的样本中，有多少是真的

\text{Precision} = \frac{TP}

关注 “预测为正的可靠性”
例：在标记为 “垃圾邮件” 的邮件中，有多少是真垃圾？

# ✅ 3. Recall（召回率）

在真实为正的样本中，有多少被成功预测为正

{Recall} = \frac{TP}

关注 “实际正样本被找出来的能力”
例：系统有没有漏掉真正的垃圾邮件？

# ✅ 4. F1-score（F1 值）

精确率和召回率的调和平均数

${F1} = \frac{2 \cdot \text{Precision} \cdot \text{Recall}}{\text{Precision} + \text{Recall}}$

当你想在 Precision 和 Recall 之间取得平衡时使用，尤其适合不平衡数据集。

1 代表模型最好，0 代表模型最差

# 🧠 小贴士：何时用哪个指标？

场景	推荐指标
总体准确性	Accuracy
偏向 “预测正确性”	Precision
偏向 “避免漏掉目标”	Recall
综合考虑精确率与召回率	F1-score

# 四、Holdout 法（留出法）

# 🔹 定义

Holdout 法是将数据集随机划分为两组：一组用于训练模型（training set），一组用于测试模型（test set）。

# 🔹 步骤说明

划分数据
- 将数据随机分成两部分（例如：2/3 训练集，1/3 测试集）
模型训练
- 在训练集上训练模型
模型评估
- 在测试集上评估模型性能，如计算 accuracy、precision、recall 等指标

# 🔹 扩展：随机重复抽样（Random Sampling）

Holdout 的变体 —— 为了更稳定的评估结果

重复进行 k 次随机划分和模型训练 / 评估
取 k 次测试准确率的平均值作为最终评估结果

1	Final Accuracy = (accuracy₁ + accuracy₂ + ... + accuracy_k) / k

# 🔍 中文小结（配合图片中的内容）

将数据随机分为两组：训练集和测试集，通常按 2/3 和 1/3 划分
用训练数据 training data 构建模型
用测试数据 test data 评估模型性能
可多次重复（k 次），最终取平均值

# 五、交叉验证法（Cross-validation）

# 🔹 什么是 Cross-validation？

将数据集划分为多个子集，在多个轮次中轮流作为训练集和验证集，从而更稳定地评估模型性能。

# ✅ 常用方法：k-fold 交叉验证（k = 10 最常见）

步骤：
1. 将数据集划分成 k 个大小相近、互不重叠的子集（folds）。
2. 每次从中选择 1 个子集作为 验证集，其余 k-1 个作为 训练集。
3. 重复这个过程 k 次，每次更换验证集。
4. 将 k 次验证的准确率 / 损失等评估指标取平均，作为最终模型性能指标。

1	Final Score = (score₁ + score₂ + ... + score_k) / k

# 🎯 优点：

充分利用数据，不浪费任何样本；
可以减少因一次随机划分带来的偶然偏差；
结果更稳定、泛化能力评估更准确。

# 🔸 特殊形式：Leave-One-Out（留一法）

是 k-fold 的极端情况，k = 样本数；
每次只留一个样本作为验证集，其他全部为训练集；
更精确但计算开销更大。

# 📊 图示说明（如图所示）：

轮次	验证集	训练集	验证准确率
Round 1	Fold 1	Fold 2-10	93%
Round 2	Fold 2	Fold 1, 3-10	90%
Round 3	Fold 3	Fold 1-2, 4-10	91%
...	...	...	...
Round 10	Fold 10	Fold 1-9	95%

# 🧠 中文总结

将数据集 D 分为 k 个子集；
每次取出 1 个作为验证集，其余作为训练集；
重复 k 次，取平均值；
常用 k = 10，被称为 十折交叉验证；
若 k = 数据总数，称为 留一法（Leave-One-Out）。