章节目录
第1章 统计模式识别绪论 1.1 统计模式识别 1.1.1 引言 1.1.2 基本模型 1.2 解决模式识别问题的步骤 1.3 问题讨论 1.4 统计模式识别的方法 1.5 基本决策理论 1.5.1 最小错误贝叶斯决策规则 1.5.2 最小错误贝叶斯决策规则——拒绝分类 1.5.3 最小风险贝叶斯决策规则 1.5.4 最小风险贝叶斯决策规则——拒绝分类 1.5.5 NeymanPearson决策规则 1.5.6 最小最大决策 1.5.7 讨论 1.6 判别函数 1.6.1 引言 1.6.2 线性判别函数 1.6.3 分段线性判别函数 1.6.4 广义线性判别函数 1.6.5 小结 1.7 多重回归 1.8 本书梗概 1.9 提示及参考文献 习题 第2章 密度估计的参数法 2.1 引言 2.2 分布参数估计 2.2.1 估计法 2.2.2 预测法 2.3 高斯分类器 2.3.1 详述 2.3.2 高斯分类器插入估计的推导 2.3.3 应用研究举例 2.4 处理高斯分类器的奇异问题 2.4.1 引言 2.4.2 朴素贝叶斯 2.4.3 投影到子空间 2.4.4 线性判别函数 2.4.5 正则化判别分析 2.4.6 应用研究举例 2.4.7 拓展研究 2.4.8 小结 2.5 有限混合模型 2.5.1 引言 2.5.2 混合判别模型 2.5.3 正态混合模型的参数估计 2.5.4 正态混合模型协方差矩阵约束 2.5.5 混合模型分量的数量 2.5.6 期望最大化算法下的极大似然估计 2.5.7 应用研究举例 2.5.8 拓展研究 2.5.9 小结 2.6 应用研究 2.7 总结和讨论 2.8 建议 2.9 提示及参考文献 习题 第3章 密度估计的贝叶斯法 3.1 引言 3.1.1 基本原理 3.1.2 递归计算 3.1.3 比例性 3.2 解析解 3.2.1 共轭先验概率 3.2.2 方差已知的正态分布的均值估计 3.2.3 多元正态分布的均值及协方差矩阵估计 3.2.4 未知类先验概率的情形 3.2.5 小结 3.3 贝叶斯采样方案 3.3.1 引言 3.3.2 梗概 3.3.3 贝叶斯分类器的采样类型 3.3.4 拒绝采样 3.3.5 均匀比 3.3.6 重要性采样 3.4 马尔可夫链蒙特卡罗方法 3.4.1 引言 3.4.2 吉布斯(Gibbs)采样器 3.4.3 MetropolisHastings算法 3.4.4 数据扩充 3.4.5 可逆跳跃马尔可夫链蒙特卡罗方法 3.4.6 切片采样 3.4.7 MCMC举例——正弦噪声估计 3.4.8 小结 3.4.9 提示及参考文献 3.5 贝叶斯判别方法 3.5.1 标记训练数据 3.5.2 无类别标签的训练数据 3.6 连续蒙特卡罗采样 3.6.1 引言 3.6.2 基本方法 3.6.3 小结 3.7 变分贝叶斯方法 3.7.1 引言 3.7.2 描述 3.7.3 分解为因子的变分近似 3.7.4 简单的例子 3.7.5 模型选择中的运用 3.7.6 拓展研究与应用 3.7.7 小结 3.8 近似贝叶斯计算 3.8.1 引言 3.8.2 ABC拒绝采样 3.8.3 ABC MCMC采样 3.8.4 ABC总体蒙特卡罗采样 3.8.5 模型选择 3.8.6 小结 3.9 应用研究举例 3.10应用研究 3.11总结和讨论 3.12建议 3.13提示及参考文献 习题 第4章 密度估计的非参数法 4.1 引言 4.1.1 密度估计的基本性质 4.2 k近邻法 4.2.1 k近邻分类器 4.2.2 推导 4.2.3 距离度量的选择 4.2.4 最近邻法决策规则的性质 4.2.5 线性逼近排除搜索算法 4.2.6 分支定界搜索算法: kd树 4.2.7 分支定界搜索算法: ball树 4.2.8 剪辑方法 4.2.9 应用研究举例 4.2.10拓展研究 4.2.11小结 4.3 直方图法 4.3.1 直方图自适应数据 4.3.2 独立性假设(朴素贝叶斯) 4.3.3 Lancaster模型 4.3.4 最大权值相关树 4.3.5 贝叶斯网络 4.3.6 应用研究举例: 朴素贝叶斯文本分类 4.3.7 小结 4.4 核函数方法 4.4.1 有偏估计 4.4.2 延伸到多元 4.4.3 平滑参数的选择 4.4.4 核函数的选择 4.4.5 应用研究举例 4.4.6 拓展研究 4.4.7 小结 4.5 用基函数展开 4.6 copula方法 4.6.1 引言 4.6.2 数学基础 4.6.3 copula函数 4.6.4 copula概率密度函数的估计 4.6.5 简单举例 4.6.6 小结 4.7 应用研究 4.7.1 比较研究 4.8 总结和讨论 4.9 建议 4.10提示及参考文献 习题 第5章 线性判别分析 5.1 引言 5.2 两类问题算法 5.2.1 总体思路 5.2.2 感知准则 5.2.3 Fisher准则 5.2.4 最小均方误差法 5.2.5 拓展研究 5.2.6 小结 5.3 多类算法 5.3.1 总体思路 5.3.2 错误修正法 5.3.3 Fisher准则:线性判别分析 5.3.4 最小均方误差法 5.3.5 正则化 5.3.6 应用研究实例 5.3.7 拓展研究 5.3.8 小结 5.4 支持向量机 5.4.1 引言 5.4.2 两类线性可分数据问题 5.4.3 两类线性不可分数据问题 5.4.4 多类支持向量机 5.4.5 支持向量机回归 5.4.6 具体实施 5.4.7 应用研究举例 5.4.8 小结 5.5 logistic判别 5.5.1 两类问题 5.5.2 极大似然估计 5.5.3 多类logistic判别 5.5.4 应用研究举例 5.5.5 拓展研究 5.5.6 小结 5.6 应用研究 5.7 总结和讨论 5.8 建议 5.9 提示及参考文献 习题 第6章 非线性判别分析——核与投影法 6.1 引言 6.2 径向基函数 6.2.1 引言 6.2.2 模型的确定 6.2.3 指定函数的形式 6.2.4 中心位置 6.2.5 平滑参数 6.2.6 权值的计算 6.2.7 模型阶次的选择 6.2.8 简单径向基函数 6.2.9 一些调整 6.2.10径向基函数的性质 6.2.11应用研究举例 6.2.12拓展研究 6.2.13小结 6.3 非线性支持向量机 6.3.1 引言 6.3.2 二分类 6.3.3 核函数的类型 6.3.4 模型选择 6.3.5 多类支持向量机 6.3.6 概率估计 6.3.7 非线性回归 6.3.8 应用研究举例 6.3.9 拓展研究 6.3.10小结 6.4 多层感知器 6.4.1 引言 6.4.2 多层感知器结构的确定 6.4.3 多层感知器权值的确定 6.4.4 多层感知器的建模能力 6.4.5 logistic分类 6.4.6 应用研究举例 6.4.7 贝叶斯多层感知器网络 6.4.8 投影寻踪 6.4.9 小结 6.5 应用研究 6.6 总结和讨论 6.7 建议 6.8 提示及参考文献 习题 第7章 规则和决策树归纳法 7.1 引言 7.2 决策树 7.2.1 引言 7.2.2 决策树的构造 7.2.3 拆分规则的选择 7.2.4 终止拆分过程 7.2.5 为终端节点分配类标签 7.2.6 决策树剪枝(含实施示例) 7.2.7 决策树构造方法 7.2.8 其他问题 7.2.9 应用研究举例 7.2.10拓展研究 7.2.11小结 7.3 规则归纳 7.3.1 引言 7.3.2 从决策树生成规则 7.3.3 用连续覆盖算法进行规则归纳 7.3.4 应用研究举例 7.3.5 拓展研究 7.3.6 小结 7.4 多元自适应回归样条 7.4.1 引言 7.4.2 递归分割模型 7.4.3 应用研究举例 7.4.4 拓展研究 7.4.5 小结 7.5 应用研究 7.6 总结和讨论 7.7 建议 7.8 提示及参考文献 习题 第8章 组合方法 8.1 引言 8.2 分类器组合方案特性 8.2.1 特征空间 8.2.2 层次 8.2.3 训练程度 8.2.4 成员分类器的形式 8.2.5 结构 8.2.6 优化 8.3 数据融合 8.3.1 体系结构 8.3.2 贝叶斯方法 8.3.3 奈曼皮尔逊(NeymanPearson)公式 8.3.4 可训练规则 8.3.5 固定规则 8.4 分类器组合方法 8.4.1 乘积规则 8.4.2 和式规则 8.4.3 最小、最大及中值组合分类器 8.4.4 多数表决 8.4.5 Borda数 8.4.6 在类别预测上训练组合分类器 8.4.7 叠加归纳 8.4.8 专家混合器 8.4.9 bagging 8.4.10boosting 8.4.11随机森林 8.4.12模型平均 8.4.13方法小结 8.4.14应用研究举例 8.4.15拓展研究 8.5 应用研究 8.6 总结和讨论 8.7 建议 8.8 提示及参考文献 习题 第9章 性能评价 9.1 引言 9.2 性能评价 9.2.1 性能测度 9.2.2 判别力 9.2.3 可靠性 9.2.4 用于性能评价的ROC曲线 9.2.5 总体漂移和传感漂移 9.2.6 应用研究举例 9.2.7 拓展研究 9.2.8 小结 9.3 分类器性能的比较 9.3.1 哪种方法最好 9.3.2 统计检验 9.3.3 错分代价不定情况下的比较规则 9.3.4 应用研究举例 9.3.5 拓展研究 9.3.6 小结 9.4 应用研究 9.5 总结和讨论 9.6 建议 9.7 提示及参考文献 习题 第10章 特征选择与特征提取 10.1 引言 10.2 特征选择 10.2.1 引言 10.2.2 对特征选择方法的表述 10.2.3 评估方法 10.2.4 选择特征子集的搜索算法 10.2.5 全搜索: 分支定界法 10.2.6 顺序搜索 10.2.7 随机搜索 10.2.8 马尔可夫覆盖 10.2.9 特征选择的稳定性 10.2.10应用研究举例 10.2.11拓展研究 10.2.12小结 10.3 线性特征提取 10.3.1 主成分分析 10.3.2 KarhunenLoève变换 10.3.3 应用研究举例 10.3.4 拓展研究 10.3.5 小结 10.4 多维尺度分析 10.4.1 经典尺度分析 10.4.2 计量多维尺度 10.4.3 次序尺度分析 10.4.4 算法 10.4.5 用于特征提取的多维尺度分析 10.4.6 应用研究举例 10.4.7 拓展研究 10.4.8 小结 10.5 应用研究 10.6 总结和讨论 10.7 建议 10.8 提示及参考文献 习题 第11章 聚类 11.1 引言 11.2 分层聚类法 11.2.1 单链接方法 11.2.2 完全链接方法 11.2.3 平方和方法 11.2.4 通用合并算法 11.2.5 分层聚类法的性质 11.2.6 应用研究举例 11.2.7 小结 11.3 快速分类 11.4 混合模型 11.4.1 模型描述 11.4.2 应用研究举例 11.5 平方和方法 11.5.1 聚类准则 11.5.2 聚类算法 11.5.3 矢量量化 11.5.4 应用研究举例 11.5.5 拓展研究 11.5.6 小结 11.6 谱聚类 11.6.1 图论初步 11.6.2 相似矩阵 11.6.3 聚类应用 11.6.4 谱聚类算法 11.6.5 拉普拉斯矩阵的形式 11.6.6 应用研究举例 11.6.7 拓展研究 11.6.8 小结 11.7 聚类有效性 11.7.1 引言 11.7.2 统计检验 11.7.3 缺失类结构 11.7.4 各聚类的有效性 11.7.5 分级聚类 11.7.6 各单聚类的有效性 11.7.7 划分 11.7.8 相关准则 11.7.9 选择聚类个数 11.8 应用研究 11.9 总结和讨论 11.10建议 11.11提示及参考文献 习题 第12章 复杂网络 12.1 引言 12.1.1 特征 12.1.2 属性 12.1.3 问题阐述 12.1.4 描述性特征 12.1.5 概要 12.2 网络的数学描述 12.2.1 图矩阵 12.2.2 连通性 12.2.3 距离测度 12.2.4 加权网络 12.2.5 中心测度 12.2.6 随机图 12.3 社区发现 12.3.1 聚类方法 12.3.2 GirvanNewman算法 12.3.3 模块化方法 12.3.4 局部模块化 12.3.5 小集团过滤 12.3.6 应用研究举例 12.3.7 拓展研究 12.3.8 小结 12.4 链路预测 12.4.1 链路预测方法 12.4.2 应用研究举例 12.4.3 拓展研究 12.5 应用研究 12.6 总结和讨论 12.7 建议 12.8 提示及参考文献 习题 第13章 其他论题 13.1 模型选择 13.1.1 相互独立的训练集与测试集 13.1.2 交叉验证 13.1.3 贝叶斯观点 13.1.4 Akaike信息准则 13.1.5 最短描述长度 13.2 缺值数据 13.3 离群值检测和鲁棒方法 13.4 连续变量与离散变量的混合 13.5 结构风险最小化和VapnikChervonenkis维数 13.5.1 期望风险边界 13.5.2 VapnikChervonenkis维数 参考文献
内容简介
译 者 序 信息时代,无处不有模式识别的需求。概括地讲,模式识别是一门以应用数学为理论基础,利用计算机应用技术,解决实际分类及识别问题的学问。按照研究问题的特点及解决问题的手段特征,通常有统计模式识别和结构模式识别之分,前者以多元统计理论为数学基础,以数据特征的形式对问题进行描述,而后者则以形式语言为数学基础,以结构图元的形式对问题进行描述,它们都致力于将隐含在大量样本中的类间差异的规律归纳出来,并综合成适当的分类、识别乃至预测模型。 从发展的角度看,在传统的、较成熟的分类和识别方法的基础上,模糊数学思想方法的介入,人工神经网络对统计模型类型的丰富、进化算法等一批优秀算法的出现,支持向量机、复杂网络、极度学习和深度学习等一些新方法的提出和介入等,使统计模式识别的研究和应用充满活力。 英国著名学者Andrew R. Webb所著《统计模式识别》一书对统计模式识别的理论、概念和方法进行了全面介绍,并在以下方面具有鲜明特点。 1.编写体系。本书以“分类与识别”为主线,在“基本概念理论分析方法讲解应用实例拓展研究”的框架下,介绍统计模式识别的每一个具体方法; 再以应用研究、建议、参考文献等,对由若干方法形成的一类问题进行综述。其中,“拓展研究”能够使读者从知识点伸展到面,进一步了解相关问题的研究动态及人们普遍关注的问题; 而“应用研究”则将模式识别技术与广泛的实际问题紧密相联,颇具启迪性; “总结”及“建议”凝结了作者的体会和经验,颇具指导性; “参考文献”给出了所列文献与书中内容的联系及其特色。这样的组织格局使读者从局部到全局、从理论到方法、从方法到应用、从研究动态到问题展望,一览无余。 2.清晰的分类方法的主线设计。作者将各种分类器学习方法收纳于统计决策、超特征空间划分这两条主线中,从第2章到第9章,用了共八章的篇幅。统计决策重点解决类概率密度函数的训练,除了非参数法和参数法之外,增加了贝叶斯方法的介绍,特别是按照近邻法直方图法核函数法级数法逐步展开的概率密度估计的讲解,对学习者理解、掌握和用好相关技术大有益处; 超特征空间划分按照线性和非线性线条展开,自然引出对支持向量机和多层感知器的介绍,规则归纳法反映了模式识别与智能方法的有机联系,搭建起从分类模型的判别分析到可解释规则的桥梁。 3.将最新研究方法融入统计模式识别框架。作者在“分类与识别”主线下带出对统计模式识别概念、新方法(例如人工神经网、模糊思想用于聚类、支持向量机、新的非参数方法、谱聚类、复杂网络等)的较详尽介绍,使读者能够更深层次地理解它们的构成内涵及其识别行为属性,从而为根据具体问题特点灵活、合理地选用它们提供帮助。 4.内容前后呼应。作者在保持各章节内容相对独立的前提下,特别加强了“谈此及彼”,使读者能够对一种重要方法进行多角度的理解和消化。 5.辩证评述和比较性研究。模式识别问题本身决定了目前实用的模式识别方法和技术没有绝对的好与坏。相信读者会从本书的字里行间领略到作者科学严谨的理论分析及辩证客观的方法评述,并从中受益。另外,本书特别强调并略加笔墨的“分类器优化组合”、“比较性研究”,近年来受到模式识别学者和专家的重视,值得读者关注。 本书对上一版的大部分章节内容都进行了重新编写和组织,包括内容顺序的梳理和调整,使其内容的模块性更强,分类方法的线条更清晰,与机器学习、数据挖掘及知识发现的关联更紧密; 配置了更多的例子和图表,使内容更易读、易理解。 本书的中译本在上版译稿基础上完成。上一版翻译工作由王萍、杨培龙和罗颖昕完成。在这个版本的翻译过程中,范凯波、王娟、王迪、闫春遐和杜雪峰等,在新增内容初译和公式整理等方面提供了帮助。全书由王萍统稿和定稿。 在这里向为本书的翻译工作做出贡献的所有人表示感谢,包括已经毕业的学生杨培龙、罗颖昕和杜雪峰,以及即将毕业的博士生王娟和硕士生闫春遐,在读的博士生范凯波、王迪和石君志。谢谢你们! 由于译者水平所限,译文中难免有疏漏和不妥之处,恳请读者不吝赐教。 王 萍 2014年9月 于天津大学 本书介绍统计模式识别的基本理论和技术,其中大部分内容涉及识别和分类问题,并取材于工程学、统计学、计算机科学和社会学等领域的相关文献。在这些文献中,反映了许多当今最有用的模式处理技术,包括许多最新的非参数识别方法和贝叶斯计算方法,本书一并对它们进行介绍,并对使用这些技术方法的起因和支撑这些技术方法的理论展开讨论,以使读者在使用那些流行软件包解决问题时获益最大。本书对各项技术均附以应用研究实例说明之。至于书中涉及的模式识别的应用、对比研究法及理论进展的细节,可以在书后各类文献中找到。 本书内容源自我们对统计模式识别方法进展的研究,以及对传感器数据分析问题的实际应用,针对高年级本科生课程和研究生课程而写,其中有些材料已用于研究生的模式识别课程及模式识别暑期班。本书也是为模式识别领域的实际工作者及其研究者所设计的。作为学习本书内容的先决条件,学习者应具备概率论和线性代数的基本知识,掌握一些基本数学方法(例如,在一些推导中,用于解决具有等式约束和不等式约束问题的拉格朗日数乘法)。本书前版附录提供的一些基本材料可以在本书配套网站找到。 范围 本书展现绝大多数常用的统计模式识别方法。然而,模式识别的许多重要研究进展并非局限于统计学文献,而经常呈现于与机器学习交叉的研究领域。因此,打破传统的统计模式识别的框架将是有益的,本书正是这样做的。例如,我们把一些规则归纳方法作为一种补充方法添加进来,以通过决策树归纳掌控探索过程。本书谈到的大多数方法具有一般性,即这些方法并不要求指定数据或应用的特定类型,于是本书内容不涉及大家时常用到的信号(和图像)预处理方法,以及信号(和图像)滤波方法。 方法 本书每一章所讨论的方法,均会安排讲述与其相关的基本概念和算法,均会在章末给出引自参考文献的相关方法或分类技术的实际应用,其主要目是理解方法的基本概念。有时候需要进行一些详细的数学描述,因此有时不得不划一个界限,以掌控把哪个特定主题讨论到多深。本书涉及的大部分主题可以用整本书来论述,于是我们不得不对所拥有的材料进行取舍,因此每一章的最后一节均提供了主要的参考文献。章末所附习题与开卷式问题有所不同,开卷式问题涉及比较冗长的计算机工程项目。 第三版的新增内容 本书对前版的许多章节进行了重新编写,并添加了一些新的材料,新增内容特点如下。 第3章的内容是新增的,这一章讲述密度估计的贝叶斯法,包括对贝叶斯采样方案的内容拓展、马尔可夫链蒙特卡罗方法、序贯蒙特卡罗采样器和变分贝叶斯法。 新增一节专门讲述密度估计的非参数方法。 新增规则归纳方法。 为分类器的组合方法新增一章。 对特征选择内容进行了重新修订,增添了关于特征选择稳定性的章节。 新增谱聚类内容。 新增一章讲述复杂网络问题,这个问题与社会及计算机网络分析的高增长领域相关。 全书梗概 第1章作为统计模式识别的绪论,给出一些名词术语的定义,介绍监督型分类和无监督型分类。就监督型分类而言,有两种研究方法: 一种方法基于概率密度函数的运用; 另一种方法则基于判别函数的构建。在这一章的最后对模式识别的完整过程进行概括,细节问题则安排在后续章节中讨论。第2章至第4章讨论识别问题的密度函数法。其中,第2章讲解密度函数估计的参数法,它们在贝叶斯法上的进一步拓展安排在第3章,第4章讨论非参数分类器的实现方案,包括被广泛使用的k近邻法及与之相关的有效搜索算法。 第5章至第7章研究有监督分类问题的判别函数的构建方法。第5章集中讨论线性判别函数,其中所涉及的大多数判别法(包括优化、正则化和支持向量机)也适用于第6章展开的非线性研究。第6章探讨基于核函数的方法,特别是径向基函数网络和支持向量机,还讨论了基于投影的方法(多层感知器),这些通常称为神经网络方法。第7章讨论如何使分类函数变为可解释的规则,这种判别方法对一些应用来说非常重要。 第8章讨论分类器的集成方法,即为提高系统的鲁棒性,将多个分类器组合起来。第9章讲述如何测评分类器的性能。 第10章和第11章探讨数据分析和预处理技术(这些工作通常先于第5章至第7章介绍的有监督分类工作,尽管有时可以用来作为有监督方法的后置处理)。第10章讲述特征选择和特征提取方法,它们用以降低描述原始数据特征的维数,这项工作通常是分类器整体设计工作的一部分,只是被人为地将这一模式识别问题划分为相对独立的特征提取过程和模式分类过程。特征提取可以帮助我们深入了解数据结构及分类器需要选用的类型,因此该研究备受关注。第11章讲述无监督分类或称聚类问题,即在样本群中找到所存在的结构并借此将其分组的过程。这类技术的工程应用是对图像进行矢量量化及对语音编码。第12章讨论复杂网络问题,所述方法对待分析的数据用图形的数学概念进行表述,所述及问题与社会及计算机网络的关联很显著。 最后,即第13章,讨论一些重要的包括模型选择问题在内的研究课题。 本书网站 对如下问题提供了补充材料: 相异测度、估计方法、线性代数、数据分析和基本概率方法。 致谢 在编写本书第三版的过程中,我们得到了很多人的帮助。在此特别感谢East Anglia大学的Gavin Cawley博士所给予的帮助和建议,感谢朋友们和同事们(RSRE,DERA 和 QinetiQ的自始至终的帮助),他们对原稿的不同部分提出了许多宝贵意见。还要特别感谢Anna Skeoch为第12章提供数据; 感谢Richard Davies和John Wiley的同事们为稿件的最终出版所给予的帮助。Andrew Webb特别感谢Rosemary所给予的爱、支持和耐心。
下载说明
1、统计模式识别是作者Andrew R. Webb,Keith创作的原创作品,下载链接均为网友上传的网盘链接!
2、相识电子书提供优质免费的txt、pdf等下载链接,所有电子书均为完整版!