# 一、机器学习及分类

# 1.1🔍 机器学习任务分类(Machine Learning Problems)

  • Prediction(预测)

    • 包括分类(Classification)和回归(Regression), 是一种有监督学习
    • 例子:
  • 分类问题(Classification):

    • 判断一封邮件是不是垃圾邮件(标签:垃圾 vs 正常)
    • 预测一个肿瘤是良性还是恶性(标签:良性 / 恶性)
  • 回归问题(Regression):

    • 根据房屋面积、地段等预测房价(标签是一个连续数值)
  • Clustering / Segmentation / Association Rules(聚类 / 分群 / 关联规则)

    • 用于发现数据中的潜在模式(无监督学习)
    • 例子:
  • 聚类(Clustering):

    • 把用户按浏览行为自动分组,例如:“白领群”、“学生群”、“夜猫子群”
  • 关联规则(Association Rules):

    • 从购物记录中发现常见搭配:买 “尿布” 的人常常也买 “啤酒”({尿布} → {啤酒})
  • Outlier / Anomaly Detection(异常点检测)

    • 发现不寻常的数据行为或模式

    • 例子:

    • 信用卡交易异常检测:

      • 用户平时都在悉尼刷卡,但突然在纽约消费一笔巨额交易 → 可能是欺诈!
    • 网络安全:

      • 突然爆发的高频访问行为 → 可能是 DDoS 攻击
  • Reinforcement Learning(强化学习)

    • 模仿婴儿学习过程,从奖励中逐步优化行为
    • 例子:
  • 训练自动驾驶小车在轨道上绕圈跑,越跑越稳

  • AI 玩《超级马里奥》或围棋,通过不断试错 + 胜负反馈来改进策略

  • 工业机器人学会抓取不同形状物体,完成装配任务


# 🧠 什么是机器学习?(What is Machine Learning?)

创建和使用从数据中学到的模型,用于完成各种预测与决策任务。

  • 📧 例子:
    • 判断邮件是否是垃圾邮件
    • 在复杂数据中挖掘隐藏规则
    • 识别信用卡欺诈交易
    • 判断肿瘤是良性还是恶性

# 📌 中文分类小结

英文术语中文翻译
Prediction预测任务
Clustering分类 / 聚类任务
Outlier / Anomaly Detection异常模式识别
Reinforcement Learning强化学习

# 1.2📊 机器学习建模流程

1
2
3
┌──────┐     ┌────────────────┐     ┌────────┐     ┌────────────┐
│ Data │ ──▶ │ Data Processing│ ──▶ │ Model │ ──▶ │ Prediction │
└──────┘ └────────────────┘ └────────┘ └────────────┘


# 1️⃣ Data(数据)

原始数据收集阶段,可能包括日志、交易、用户行为、传感器读数等。


# 2️⃣ Data Processing(数据预处理)

对原始数据进行清洗、转换和标准化,以便模型能够有效使用。

  • 包括操作:
    • 缺失值处理
    • 特征归一化 / 标准化
    • 编码(如 One-hot)
    • 数据划分(训练集 / 测试集)

# 3️⃣ Model(模型)

使用训练数据来训练一个模型,模型可以是分类器、聚类器或回归器。

  • 模型种类示例:
    • Classifiers:逻辑回归、SVM、决策树(用于分类任务)
    • Clusters:K-means、DBSCAN(用于无监督聚类)
    • Regression:线性回归、岭回归等(用于连续值预测)

# 4️⃣ Prediction(预测)

使用训练好的模型对新数据进行预测,输出分类标签、概率或数值。


# 📌 总结一句话:

从原始数据出发 → 清洗处理 → 构建模型 → 输出预测结果
是所有机器学习项目的基础框架。

# 1.3📚 监督学习 vs 非监督学习(Supervised vs. Unsupervised Learning)


# 🔴 Supervised Learning(监督学习)

模型训练时有 “老师”—— 每条训练数据都带有标签(label)。

  • ✅ 常见任务:

    • 分类(Classification):判断某对象属于哪个类别
      • 例:判断邮件是否为垃圾邮件
    • 回归(Regression):预测一个连续数值
      • 例:根据面积预测房价
  • 🧠 关键点:

    • 每个训练样本都有对应的 “答案”(标签)
    • 目标是学会从输入特征预测标签

# 🔵 Unsupervised Learning(非监督学习)

模型没有 “答案”,自己从数据中找规律。

  • ✅ 常见任务:

    • 聚类(Clustering):自动把数据分组
      • 例:将顾客分成不同群体
    • 关联规则(Association Rule Mining):发现项目之间的共现关系
      • 例:买了尿布也容易买啤酒
  • 🧠 关键点:

    • 训练数据没有标签
    • 目标是揭示隐藏的结构、模式或规则

# 📌 对比总结表格:

特征监督学习非监督学习
是否有标签✅ 有❌ 无
输出类型分类 / 回归聚类 / 关联
学习目标学习从输入预测输出发现数据内在结构
示例算法决策树、SVM、线性回归K-means、Apriori、PCA