# 一、机器学习及分类
# 1.1🔍 机器学习任务分类(Machine Learning Problems)
Prediction(预测)
- 包括分类(Classification)和回归(Regression), 是一种有监督学习
- ✅ 例子:
分类问题(Classification):
- 判断一封邮件是不是垃圾邮件(标签:垃圾 vs 正常)
- 预测一个肿瘤是良性还是恶性(标签:良性 / 恶性)
回归问题(Regression):
- 根据房屋面积、地段等预测房价(标签是一个连续数值)
Clustering / Segmentation / Association Rules(聚类 / 分群 / 关联规则)
- 用于发现数据中的潜在模式(无监督学习)
- ✅ 例子:
聚类(Clustering):
- 把用户按浏览行为自动分组,例如:“白领群”、“学生群”、“夜猫子群”
关联规则(Association Rules):
- 从购物记录中发现常见搭配:买 “尿布” 的人常常也买 “啤酒”({尿布} → {啤酒})
Outlier / Anomaly Detection(异常点检测)
发现不寻常的数据行为或模式
✅ 例子:
信用卡交易异常检测:
- 用户平时都在悉尼刷卡,但突然在纽约消费一笔巨额交易 → 可能是欺诈!
网络安全:
- 突然爆发的高频访问行为 → 可能是 DDoS 攻击
Reinforcement Learning(强化学习)
- 模仿婴儿学习过程,从奖励中逐步优化行为
- ✅ 例子:
训练自动驾驶小车在轨道上绕圈跑,越跑越稳
AI 玩《超级马里奥》或围棋,通过不断试错 + 胜负反馈来改进策略
工业机器人学会抓取不同形状物体,完成装配任务
# 🧠 什么是机器学习?(What is Machine Learning?)
创建和使用从数据中学到的模型,用于完成各种预测与决策任务。
- 📧 例子:
- 判断邮件是否是垃圾邮件
- 在复杂数据中挖掘隐藏规则
- 识别信用卡欺诈交易
- 判断肿瘤是良性还是恶性
# 📌 中文分类小结
英文术语 | 中文翻译 |
---|---|
Prediction | 预测任务 |
Clustering | 分类 / 聚类任务 |
Outlier / Anomaly Detection | 异常模式识别 |
Reinforcement Learning | 强化学习 |
# 1.2📊 机器学习建模流程
1 | ┌──────┐ ┌────────────────┐ ┌────────┐ ┌────────────┐ |
# 1️⃣ Data(数据)
原始数据收集阶段,可能包括日志、交易、用户行为、传感器读数等。
# 2️⃣ Data Processing(数据预处理)
对原始数据进行清洗、转换和标准化,以便模型能够有效使用。
- 包括操作:
- 缺失值处理
- 特征归一化 / 标准化
- 编码(如 One-hot)
- 数据划分(训练集 / 测试集)
# 3️⃣ Model(模型)
使用训练数据来训练一个模型,模型可以是分类器、聚类器或回归器。
- 模型种类示例:
- Classifiers:逻辑回归、SVM、决策树(用于分类任务)
- Clusters:K-means、DBSCAN(用于无监督聚类)
- Regression:线性回归、岭回归等(用于连续值预测)
# 4️⃣ Prediction(预测)
使用训练好的模型对新数据进行预测,输出分类标签、概率或数值。
# 📌 总结一句话:
从原始数据出发 → 清洗处理 → 构建模型 → 输出预测结果
是所有机器学习项目的基础框架。
# 1.3📚 监督学习 vs 非监督学习(Supervised vs. Unsupervised Learning)
# 🔴 Supervised Learning(监督学习)
模型训练时有 “老师”—— 每条训练数据都带有标签(label)。
✅ 常见任务:
- 分类(Classification):判断某对象属于哪个类别
- 例:判断邮件是否为垃圾邮件
- 回归(Regression):预测一个连续数值
- 例:根据面积预测房价
- 分类(Classification):判断某对象属于哪个类别
🧠 关键点:
- 每个训练样本都有对应的 “答案”(标签)
- 目标是学会从输入特征预测标签
# 🔵 Unsupervised Learning(非监督学习)
模型没有 “答案”,自己从数据中找规律。
✅ 常见任务:
- 聚类(Clustering):自动把数据分组
- 例:将顾客分成不同群体
- 关联规则(Association Rule Mining):发现项目之间的共现关系
- 例:买了尿布也容易买啤酒
- 聚类(Clustering):自动把数据分组
🧠 关键点:
- 训练数据没有标签
- 目标是揭示隐藏的结构、模式或规则
# 📌 对比总结表格:
特征 | 监督学习 | 非监督学习 |
---|---|---|
是否有标签 | ✅ 有 | ❌ 无 |
输出类型 | 分类 / 回归 | 聚类 / 关联 |
学习目标 | 学习从输入预测输出 | 发现数据内在结构 |
示例算法 | 决策树、SVM、线性回归 | K-means、Apriori、PCA |