IRON = 杂项笔记

2025-04-24

lec7 Association RuleMining

# 一、机器学习及分类 # 1.1🔍 机器学习任务分类（Machine Learning Problems） Prediction（预测）包括分类（Classification）和回归（Regression）, 是一种有监督学习 ✅ 例子：分类问题（Classification）：判断一封邮件是不是垃圾邮件（标签：垃圾 vs 正常）预测一个肿瘤是良性还是恶性（标签：良性 / 恶性）回归问题（Regression）：根据房屋面积、地段等预测房价（标签是一个连续数值） Clustering / Segmentation / Association Rules（聚类 /...

more...

2025-04-02

lec3

# 生日悖论 # 🌟 问题设定有 m 个人，每个人的生日是等概率地在 1 到 365 天之间。问：至少有两个人生日相同的概率是多少？我们设： n=365（即一年 365 天） m 是房间里的人数 p (m,n)：至少两人生日相同的概率 # 🧮 如何计算这个概率？我们可以通过 ** 反向思考（补集法）** 来计算。 # 1. 计算 “没有人生日相同” 的概率（记为 q (m,n)）即，每个人的生日都不重复。假设第一个人随便选生日（有 365 种选法），第二个人必须选一个不一样的（有 364 个选择），第三个人有 363 个可选…… 直到第 m 个人，有...

more...

2025-03-28

lec6 Hypothesis Testingand Evaluation

# 🧪 一、统计研究类型以及一些概念 # 1. 研究的类型观察性研究（Observational Study）被动观察，不控制变量。只能揭示相关性，不能说明因果。例子：晒黑设备与皮肤癌、使用电脑时间与血压简单的观察发生了什么，记录受试者的信息，不对受试者进行任何操作。实验性研究（Experimental Study）主动施加处理（treatment），设置对照组。可以探究因果关系。例子：限制计算机时间组 vs...

more...

2025-03-27

lec4 Linear Programming

# 1. 线性规划基础可以根据条件列出一个不等式区间，然后根据目标函数来判断极值位于哪里比如 lec 中的例题目标函数：最大化形式 f (x,y)=200,000x+250,000yf (x, y) = 200,000x + 250,000yf (x,y)=200,000x+250,000y。约束条件来自资源限制（如砖块、门、窗）： 10,000x+8,000y≤168,000 4x+2y≤60 5x+10y≤150 x≥0,y≥0 示意图：这个点通过平移 k=-0.8...

more...

2025-03-16

lec2 SweepLine

# 一、多边形的三角剖分（Polygon Triangulation） # 1. 算法 1 row123while 多边形 P 尚未被完全三角剖分: 找到一条有效对角线 (x,y) 输出对角线 (x,y) # 📌算法复杂度分析：算法复杂度从以下三个方面分析：对角线数量（Number of potential diagonals）：一个多边形有 n 个顶点，每对顶点都有可能构成对角线，所以潜在对角线最多为 O (n2) O (n^2) O (n2)。检查一条潜在的对角线是否合法（Testing one potential...

more...

2025-03-16

lec1 介绍(个人总结版)

首先，这一门课的两个重要方法：反证法和数学归纳法这两个方法在后续的正确性证明当中使用的相当频繁然后引入这门课的第一个问题：艺术画廊问题即一个艺术画廊中需要放多少个守卫才能监视到整个画廊每个守卫的视野距离无限，角度 360 度然后引入上界与下界：上界我们可以首先松弛一点，即一开始的上界定为 n-2，n 为边数，因为我们可以以最差的角度来考虑，即把整个多边形分成 n-2 个三角形，并且每个三角形都放一个守卫 #...

more...

2025-03-05

lec6

# 📘 哈希函数的定义与作用 # ✅ 什么是哈希函数？哈希函数是一个将输入值映射到固定大小的输出空间的函数。输入：任意数据（整数、字符串、对象等）输出：通常是一个固定范围的整数（例如 0 到 m−1m - 1m−1）记作： h : \mathcal{U} \rightarrow \ 其中 U 是输入的全集 # 🧰 用途 / 作用哈希函数被用于实现：应用说明哈希表高效的数据结构，实现 dict / map 快速查找期望时间复杂度 O...

more...

2025-03-05

随机算法基础：一些离散数学的概念

# 重要知识点梳理 # 五种重要的分布 # 1. 二项分布（Binomial Distribution）定义适用于独立重复伯努利试验（每次试验只有成功或失败两种情况）。统计成功次数。参数 X∼Bin(n,p)$$其中： - n是试验次数。 - p是单次试验成功的概率。 P(X=k)=(nk)pk(1−p)n−k,k=0,1,2,…,nP(X = k) = \binom{n}{k} p^k (1-p)^{n-k}, \quad k =...

more...

2025-03-05

lec1 介绍(个人总结版)

这一节主要是入门。首先老师举了一个例子，即抽牌的问题，在 52 张牌中，连续抽到两个同样花色的牌的概率。而在概率之后，就引入了期望的概念。 E(X + Y) = E(X) + E(Y) 然后讨论了期望的线性与否，计算了抽牌的过程的期望 # 算法的最坏时间如上图我们可以知道，有两种计算的逻辑由于随机算法会在算法中添加一个随机量 r，然后第一种是分别输入不同的 x，每一个 x 结合随即量 r 取一个平均值，最后将最差的 x 作为最坏期望时间而第二种算法则是在最坏的情况下，还要将 r 设定为最差的值，即差中之差，将随机算法当作固定的看待。 # 随机算法的分类这个分类有两类 Monte...

more...

2025-03-05

lec2

# 一、为什么关心集中性（Concentration）通常我们只能知道一个随机过程的期望值（比如算法的平均运行时间），但这远远不够。我们希望了解：“实际结果通常不会离期望太远”，这就是集中性的概念。举个例子：一个算法的期望运行时间是 5 秒，但它可能大多数时候运行 1 秒，偶尔运行 1 分钟。那这 “平均值” 就不能准确反映真实体验。所以我们需要知道：“它会不会很容易偏离期望？偏离的概率有多大？” # 二、几种重要的集中不等式（Concentration Inequalities） # ✅ 1. Markov 不等式 # ✅...

more...