
第一章 统计学习及监督学习概论
1.3 统计学习方法三要素
1.3.1 模型
即方法所要学习的条件概率分布或决策函数
1.3.2 策略
即以什么样的标准评价模型的好坏。统计学习的目标就是从假设空间中选取最优的模型。
- 损失函数和风险函数
- 经验风险最小化和结构风险最小化
简单来说,就是学习的目标函数。
1.3.3 算法
使目标函数最优化的方法。
1.7 生成模型与判别模型
这个帖子解释得比较清晰
机器学习“判定模型”和“生成模型”有什么区别? - 马同学的回答 - 知乎
第三章 k近邻法
3.3 k近邻法的实现:kd树
kd树是树形数据结构,主要作用是加快k近邻搜索。
第五章 决策树
决策树可以看作一系列if-then规则的集合,这些规则互斥且完备,能够根据这些规则判断输入的类别。
决策树学习算法包含特征选择、决策树的生成与决策树的剪枝过程。
5.2 特征选择
5.2.2 信息增益
(熵的定义)在信息论与概率统计中,熵是随机变量不确定性的度量。设$X$是一个取有限个值的离散随机变量,其概率分布为
随机变量$X$的熵定义为
熵越大,随机变量的不确定性就越大。
随机变量$X$给定的条件下随机变量$Y$的条件熵$H(Y|X)$,定义为$X$给定条件下$Y$的条件概率分布的熵对$X$对数学期望
其中,$p_i=P(X=x_i), i=1,2,\cdots,n$
(信息增益的定义)特征$A$对训练数据集$D$的信息增益$g(D, A)$定义为集合$D$的经验熵$H(D)$与特征$A$给定条件下$D$的经验条件熵$H(D|A)$之差,即
信息增益表示得知特征$A$的信息而使得集合$D$的信息的不确定性减少的程度
利用信息增益进行特征选择的方法是:计算训练数据集每个特征的信息增益,并比较它们的大小,选择信息增益最大的特征
第六章 Logistic回归与最大熵模型
6.2 最大熵模型
6.2.1 最大熵原理
最大熵原理认为,学习概率模型时,在所有可能的概率模型中,熵最大的模型是最好的模型。
第八章 提升方法
提升方法是这样一类方法,它采用分步的策略学习一系列简单模型,再将这些简单模型进行线性组合得到最终的模型。
学习一个简单模型时,提升方法会以已有模型的预测结果为依据,调整训练数据集中每个训练样本的权重,使得当前模型更关注已有模型未能正确预测的样本,从而增强模型的预测能力。
第九章 EM算法及其推广
感性认识EM: 如何感性地理解EM算法?
第十四章 聚类方法
聚类方法是针对给定的样本,依据它们之间的相似程度,将其归并到若干个”类“中的数据分析问题。
聚类的核心是相似度,或者说是距离。距离计算方法的选择是聚类的根本问题。
书中介绍了层次聚类和k均值聚类两种聚类方法。
英文术语汇总
第三章 k近邻法
术语 | 中文翻译 |
---|---|
k-nearest neighbor, k-NN | k近邻法 |
class label | 类标记 |
Euclidean distance | 欧氏距离 |
Manhattan distance | 曼哈顿距离 |
approximation error | 近似误差 |
estimation error | 估计误差 |
majority voting rule | 多数表决规则 |
linear scan | 线性扫描 |
partition | 划分 |
median | 中位数 |
第四章 朴素贝叶斯法
术语 | 中文翻译 |
---|---|
naive Bayes | |
Bayesian estimation | 贝叶斯估计 |
Laplacian smoothing | 拉普拉斯平滑 |
第五章 决策树
术语 | 中文翻译 |
---|---|
decision tree | 决策树 |
node | 结点 |
directed edge | 有向边 |
internal node | 内部结点 |
leaf node | 叶结点 |
information gain | 信息增益 |
entropy | 熵 |
conditional entropy | 条件熵 |
empirical entropy | 经验熵 |
empirical conditional entropy | 经验条件熵 |
information gain ratio | 信息增益比 |
classification and regression tree, CART | 分类与回归树 |
Gini index | 基尼指数 |
第六章 Logistic回归与最大熵模型
术语 | 中文翻译 |
---|---|
binomial logistic regression model | 二项Logistic回归模型 |
odds | 几率 |
maximum entropy model | 最大熵模型 |
simplex | 单纯形 |
feature function | 特征函数 |
log linear model | 对数线性模型 |
improved iterative scaling, IIS | 改进的迭代尺度法 |
第七章 支持向量机
术语 | 中文翻译 |
---|---|
support vector machines, SVM | 支持向量机 |
convex quadratic programming | 凸二次规划 |
hard margin maximization | 硬间隔最大化 |
soft margin maximization | 软间隔最大化 |
kernel trick | 核技巧 |
kernel method | 核方法 |
functional margin | 函数间隔 |
geometric margin | 几何间隔 |
support vector | 支持向量 |
dual problem | 对偶问题 |
dual algorithm | 对偶算法 |
Lagrange multiplier | 拉格朗日乘子 |
outlier | 特异点 |
positive definite kernel function | 正定核函数 |
polynomial kernel function | 多项式核函数 |
Gaussian kernel function | 高斯核函数 |
radial basis function | 径向基函数 |
sequential minimal optimization, SMO | 序列最小最优化 |
第八章 提升方法
术语 | 中文翻译 |
---|---|
boosting | 提升 |
strongly learnable | 强可学习 |
weakly learnable | 弱可学习 |
probably approximately correct, PAC | 概率近似正确 |
additive model | 加法模型 |
forward stagewise algorithm | 前向分步算法 |
boosting tree | 提升树 |
decision stump | 决策树桩 |
residual | 残差 |
gradient boosting | 梯度提升 |
第九章 EM算法及其推广
术语 | 中文翻译 |
---|---|
hidden variable | 隐变量 |
第十四章 聚类方法
术语 | 中文翻译 |
---|---|
hierarchical clustering | 层次聚类 |
k-means clustering | k均值聚类 |
similarity | 相似度 |
Minkowski distance | 闵可夫斯基距离 |
Mahalanobis distance | 马氏距离 |
correlation coefficient | 相关系数 |
hard clustering | 硬聚类 |
soft clustering | 软聚类 |
scatter matrix | 散布矩阵 |
covariance matrix | 协方差矩阵 |
第十五章 奇异值分解
术语 | 中文翻译 |
---|---|
singular value decomposition, SVD | 奇异值分解 |
orthogonal matrix | 正交矩阵 |
rectangular diagonal matrix | 矩形对角矩阵 |
full singular value decomposition | 完全奇异值分解 |
compact singular value decomposition | 紧奇异值分解 |
truncated singular value decomposition | 截断奇异值分解 |
Frobenius norm | F范数 |
第十六章 主成分分析
术语 | 中文翻译 |
---|---|
principal component analysis, PCA | 主成分分析 |