欢迎来到相识电子书!

标签:数据挖掘

  • 啤酒与尿布

    作者:高勇

    啤酒和尿布》的故事是营销届的神话,“啤酒”和“尿布”两个看上去没有关系的商品摆放在一起进行销售、并获得了很好的销售收益,这种现象就是卖场中商品之间的关联性,研究“啤酒与尿布”关联的方法就是购物篮分析,购物篮分析是沃尔玛秘而不宣的独门武器,购物篮分析可以帮助我们在门店的销售过程中找到具有关联关系的商品,并以此获得销售收益的增长!
  • 数据挖掘Clementine应用实务

    作者:谢邦昌

    《数据挖掘Clementine应用实务》主要介绍了Clementine 11.0在数据挖掘中的应用。内容包括Clementine 11.0的新功能、数据挖掘入门、构建数据流、字段操作节点、建立CLEM表达式、建模节点和生成模型等,详细讨论了各种数据挖掘的分析方法,并介绍了大量的应用范例。
  • 集体智慧编程

    作者:西格兰

    想要探寻搜索排名、产品推荐、社会化书签和在线匹配背后的力量吗?这本颇具魅力的书籍向你展现如何创建Web 2.0应用程序,从参与性?Internet应用程序产生的大量数据中挖掘金矿。运用本书中介绍的先进算法,你可以编写聪明的程序,以访问其他网站那些有趣的数据集,从自有应用程序的用户中收集数据,或者分析和理解你所发现的数据。 《集体智慧编程》将你带入机器学习和统计的世界,并且阐释了如何从你和他人每天收集的信息中获得关于用户体验、市场营销、个性品味及人类行为的结论。每个算法的描述都十分简明清晰,相关代码均可以立即用于你的网站、博客、Wiki或特定应用程序。本书讲解了下列主题: 可以让在线零售商推荐产品或媒体的协作过滤技术 用于在大数据集中发现同类项组的聚类方法 从数以百万计可能方案中选择问题最佳解决方案的最优化算法 贝叶斯过滤,用在基于单词类型和其他特征的垃圾信息过滤中 支持向量(support-vector)机器,用于在线交友网站中的速配 用于问题解决的演化智能——计算机如何通过多次玩同样的游戏,改进自身代码并获得技能提升 每一章都包含了相关练习,可通过扩展使算法变得更强大。超越简单的数据库支持应用程序模式,让 Internet数据财富为你所用。
  • All of Statistics

    作者:Larry Wasserman

    WINNER OF THE 2005 DEGROOT PRIZE! This book is for people who want to learn probability and statistics quickly. It brings together many of the main ideas in modern statistics in one place. The book is suitable for students and researchers in statistics, computer science, data mining and machine learning. This book covers a much wider range of topics than a typical introductory text on mathematical statistics. It includes modern topics like nonparametric curve estimation, bootstrapping and classification, topics that are usually relegated to follow-up courses. The reader is assumed to know calculus and a little linear algebra. No previous knowledge of probability and statistics is required. The text can be used at the advanced undergraduate and graduate level.
  • Programming Collective Intelligence

    作者:Toby Segaran

    Want to tap the power behind search rankings, product recommendations, social bookmarking, and online matchmaking? This fascinating book demonstrates how you can build Web 2.0 applications to mine the enormous amount of data created by people on the Internet. With the sophisticated algorithms in this book, you can write smart programs to access interesting datasets from other web sites, collect data from users of your own applications, and analyze and understand the data once you've found it. Programming Collective Intelligence takes you into the world of machine learning and statistics, and explains how to draw conclusions about user experience, marketing, personal tastes, and human behavior in general -- all from information that you and others collect every day. Each algorithm is described clearly and concisely with code that can immediately be used on your web site, blog, Wiki, or specialized application. This book explains: * Collaborative filtering techniques that enable online retailers to recommend products or media * Methods of clustering to detect groups of similar items in a large dataset * Search engine features -- crawlers, indexers, query engines, and the PageRank algorithm * Optimization algorithms that search millions of possible solutions to a problem and choose the best one * Bayesian filtering, used in spam filters for classifying documents based on word types and other features * Using decision trees not only to make predictions, but to model the way decisions are made * Predicting numerical values rather than classifications to build price models * Support vector machines to match people in online dating sites * Non-negative matrix factorization to find the independent features in a dataset * Evolving intelligence for problem solving -- how a computer develops its skill by improving its own code the more it plays a game Each chapter includes exercises for extending the algorithms to make them more powerful. Go beyond simple database-backed applications and put the wealth of Internet data to work for you. "Bravo! I cannot think of a better way for a developer to first learn these algorithms and methods, nor can I think of a better way for me (an old AI dog) to reinvigorate my knowledge of the details." -- Dan Russell, Google "Toby's book does a great job of breaking down the complex subject matter of machine-learning algorithms into practical, easy-to-understand examples that can be directly applied to analysis of social interaction across the Web today. If I had this book two years ago, it would have saved precious time going down some fruitless paths." -- Tim Wolters, CTO, Collective Intellect
  • 信息论基础

    作者:[美] Thomas M.Cover,J

    信息论基础,ISBN:9787111162452,作者:(美)Thomas M.Cover,(美)Joy A.Thomas著;阮吉寿,张华译
  • 数据科学实战

    作者:[美] Rachel Schutt,[美

    • 统计推断、探索性数据分析(EDA)及数据科学工作流程 • 算法 • 垃圾邮件过滤、朴素贝叶斯和数据清理 • 逻辑回归 • 金融建模 • 推荐引擎和因果关系 • 数据可视化 • 社交网络与数据新闻 • 数据工程、MapReduce、Pregel和Hadoop
  • 数据挖掘:实用案例分析

    作者:张良均,陈俊德,刘名军,陈荣

    《数据挖掘:实用案例分析》是数据挖掘实战领域颇具特色的一部作品,作者曾为10余个行业上百家大型企业提供数据挖掘服务,本书是其在数据挖掘领域探索近10年的经验总结之作。全书以实践和实用为宗旨,深度与广度兼顾,实践与理论并举。 《数据挖掘:实用案例分析》共12章,分三个部分。第一部分是基础篇(第1~4章),主要对数据挖掘的基本概念、应用分类、建模方法及常用的建模工具进行了介绍,并对本书所用到的数据挖掘建模平台TipDM进行了说明。第二部分是实战篇(第5~10章),以案例的形式对数据挖掘技术在金融、电信、电力、互联网、生产制造以及公共服务等行业的应用场景进行了讨论;首先介绍案例背景,然后阐述分析方法与过程,最后完成模型构建;在介绍建模过程的同时穿插操作训练,把相关的知识点嵌入相应的操作过程中;此外,第10章精心设计了6个实验项目,读者可以通过本章介绍的方法动手实践,以巩固数据挖掘知识,在分析建模过程的同时,进一步增强动手能力。第三部分是高级篇(第11~12章),主要介绍基于第三方接口的数据挖掘二次开发技术,重点对常用的WEKA和MATLAB数据挖掘算法接口进行了探讨;最后对基于Hadoop框架的海量数据挖掘进行了说明,以满足读者更高层次的需求。 随书光盘中提供了本书的相关资料和案例资源,以及6个动手实验所使用的完整数据,方便读者动手实践书中所讲解的案例。
  • 数据掘金

    作者:谭磊

    电商坐拥互联网行业最丰富的用户数据金矿,却很少有人从中挖掘出真金白银。《数据掘金——电子商务运营突围》一书旨在打破这一困境,一步一步引导从业者以数据为核心来运营网站或网店。本书用浅显的文字与独特的视角,不仅成功解读电商数据运营之惑,更呈现大量数据分析和挖掘的必要基础知识及实用相关工具。在通过阅读轻松掌握电商数据运营须关注的要点与方法之后,读者还可有针对性地从书中选择学习如何利用数据来完成——流量获取优化、广告投放、客户分析,以及客户价值提升等一系列电商运营要务。 《数据掘金——电子商务运营突围》一书主要写给电商从业人员,无论是中小电子商务的运营人员、数据分析人员,还是大公司负责电子商务的策略官、市场官和运营官,都能从本书中找到自己所需且急需的有价值内容。
  • 模式分类

    作者:Richard O.Duda,Peter

    《模式分类》(英文版)(第2版)简明易读,新增的图表使得许多统计和数学题材非常生动。最终以完美和谐的形式,引导读者深入新的主题。
  • Probabilistic Graphical Models

    作者:Daphne Koller,Nir Fr

    Most tasks require a person or an automated system to reason--to reach conclusions based on available information. The framework of probabilistic graphical models, presented in this book, provides a general approach for this task. The approach is model-based, allowing interpretable models to be constructed and then manipulated by reasoning algorithms. These models can also be learned automatically from data, allowing the approach to be used in cases where manually constructing a model is difficult or even impossible. Because uncertainty is an inescapable aspect of most real-world applications, the book focuses on probabilistic models, which make the uncertainty explicit and provide models that are more faithful to reality. Probabilistic Graphical Models discusses a variety of models, spanning Bayesian networks, undirected Markov networks, discrete and continuous models, and extensions to deal with dynamical systems and relational data. For each class of models, the text describes the three fundamental cornerstones: representation, inference, and learning, presenting both basic concepts and advanced techniques. Finally, the book considers the use of the proposed framework for causal reasoning and decision making under uncertainty. The main text in each chapter provides the detailed technical development of the key ideas. Most chapters also include boxes with additional material: skill boxes, which describe techniques; case study boxes, which discuss empirical cases related to the approach described in the text, including applications in computer vision, robotics, natural language understanding, and computational biology; and concept boxes, which present significant concepts drawn from the material in the chapter. Instructors (and readers) can group chapters in various combinations, from core topics to more technically advanced material, to suit their particular needs.
  • 文本挖掘

    作者:(以)费尔德曼,(美)桑格

    《文本挖掘(英文版)》是一部文本挖掘领域名著,作者为世界知名的权威学者。书中涵盖了核心文本挖掘操作、文本挖掘预处理技术、分类、聚类、信息提取、信息提取的概率模型、预处理应用、可视化方法、链接分析、文本挖掘应用等内容,很好地结合了文本挖掘的理论和实践。《文本挖掘(英文版)》非常适合文本挖掘、信息检索领域的研究人员和实践者阅读,也适合作为高等院校计算机及相关专业研究生的数据挖掘和知识发现等课程的教材。
  • 深入搜索引擎

    作者:ian H. Witten,Alista

    《深入搜索引擎:海量信息的压缩、索引和查询》是斯坦福大学信息检索和挖掘课程的首选教材之一,并已成为全球主要大学信息检索的主要教材。《深入搜索引擎:海量信息的压缩、索引和查询》理论和实践并重,深入浅出地给出了海量信息数据处理的整套解决方案,包括压缩、索引和查询的方方面面。其最大的特色在于不仅仅满足信息检索理论学习的需要,更重要的是给出了实践中可能面对的各种问题及其解决方法。 《深入搜索引擎:海量信息的压缩、索引和查询》作为斯坦福大学信息检索课程的教材之一,具有一定的阅读难度,主要面向信息检索专业高年级本科生和研究生、搜索引擎业界的专业技术人员和从事海量数据处理相关专业的技术人员。
  • Statistical Analysis of Network Data

    作者:Eric D. Kolaczyk

    In the past decade, the study of networks has increased dramatically. Researchers from across the sciences—including biology and bioinformatics, computer science, economics, engineering, mathematics, physics, sociology, and statistics—are more and more involved with the collection and statistical analysis of network-indexed data. As a result, statistical methods and models are being developed in this area at a furious pace, with contributions coming from a wide spectrum of disciplines. This book provides an up-to-date treatment of the foundations common to the statistical analysis of network data across the disciplines. The material is organized according to a statistical taxonomy, although the presentation entails a conscious balance of concepts versus mathematics. In addition, the examples—including extended cases studies—are drawn widely from the literature. This book should be of substantial interest both to statisticians and to anyone else working in the area of ‘network science.’ The coverage of topics in this book is broad, but unfolds in a systematic manner, moving from descriptive (or exploratory) methods, to sampling, to modeling and inference. Specific topics include network mapping, characterization of network structure, network sampling, and the modeling, inference, and prediction of networks, network processes, and network flows. This book is the first such resource to present material on all of these core topics in one place.
  • 统计学习方法

    作者:李航

    《统计学习方法》是计算机及其应用领域的一门重要的学科。《统计学习方法》全面系统地介绍了统计学习的主要方法,特别是监督学习方法,包括感知机、k近邻法、朴素贝叶斯法、决策树、逻辑斯谛回归与最大熵模型、支持向量机、提升方法、EM算法、隐马尔可夫模型和条件随机场等。除第1章概论和最后一章总结外,每章介绍一种方法。叙述从具体问题或实例入手,由浅入深,阐明思路,给出必要的数学推导,便于读者掌握统计学习方法的实质,学会运用。为满足读者进一步学习的需要,书中还介绍了一些相关研究,给出了少量习题,列出了主要参考文献。
  • 数据挖掘

    作者:[加] Jiawei Han,Miche

    这本书系统地论述数据挖掘的基本概念、基本技术和最新进展。全书分10章,全面而深入地介绍数据库技术的发展和数据挖掘的应用,数据仓库和联机分析技术,数据预处理技术(数据清理、数据集成和转换、数据归约),数据挖掘技术(数据的分类、预测、关联和聚类),先进数据库系统中的数据挖掘方法,以及数据挖掘的应用和一些具有挑战性的问题。书中注重实效,在讨论概念与技术时辅以实例,并提供代表性算法。
  • Social Network Analysis

    作者:Stanley Wasserman,Ka

    Social network analysis is used widely in the social and behavioral sciences, as well as in economics, marketing, and industrial engineering. The social network perspective focuses on relationships among social entities and is an important addition to standard social and behavioral research, which is primarily concerned with attributes of the social units. Social Network Analysis: Methods and Applications reviews and discusses methods for the analysis of social networks with a focus on applications of these methods to many substantive examples. It is a reference book that can be used by those who want a comprehensive review of network methods, or by researchers who have gathered network data and want to find the most appropriate method by which to analyze it. It is also intended for use as a textbook as it is the first book to provide comprehensive coverage of the methodology and applications of the field.
  • 自然语言处理综论

    作者:Daniel Jurafsky,Jame

    本书是一本全面系统地讲述计算机自然语言处理的优秀教材。本书英文版出版之后好评如潮,国外许多著名大学纷纷把本书选为自然语言处理和计算语言学课程的主要教材,该书被誉为该领域教材的“黄金标准”。本书包含的内容十分丰富,分为四个部分,共21章,深入细致地探讨了计算机处理自然语言的词汇、句法、语义、语用等各个方面的问题,介绍了自然语言处理的各种现代技术。从层次的角度看,本书的论述是按照自然语言的不同层面逐步展开的,首先论述单词的自动形态分析,接着论述自动句法分析,然后论述各种语言单位的自动语义分析,最后论述连贯文本的自动分析、对话与会话的智能代理以及自然语言生成。从技术的角度看,本书介绍了正则表达式、有限状态自动机、文本-语音转换、发音与拼写的概率模型、词类自动标注、N元语法、隐马尔可夫模型、上下文无关语法、特征与合一、词汇化剖析与概率剖析、一阶谓词演算、词义排歧、修辞结构理论、机器翻译等非常广泛的内容。本书具有“覆盖全面、注重实用、强调评测、语料为本”四大特色。在本书的配套网站上,还提供了相关的资源和工具,便于读者在实践中进一步提高。 ------- 目录 第1章 导论 1.1 语音与语言处理中的知识 1.2 歧义 1.3 模型和算法 1.4 语言. 思维和理解 1.5 学科现状与近期发展 1.6 语音和语言处理简史 1.6.1 基础研究:20世纪40年代和20世纪50年代 1.6.2 两个阵营:1957年至1970年 1.6.3 四个范型:1970年至1983年 1.6.4 经验主义和有限状态模型的复苏:1983年至1993年 1.6.5 不同领域的合流:1994年至1999年 1.6.6 多重发现 1.6.7 心理学的简要注记 1.7 小结 1.8 文献和历史说明 第一部分 词汇的计算机处理 第2章 正则表达式与自动机 2.1 正则表达式 2.1.1 基本正则表达式模式 2.1.2 析取. 组合与优先关系 2.1.3 一个简单的例子 2.1.4 一个比较复杂的例子 2.1.5 高级算符 2.1.6 正则表达式中的替换. 存储器与ELIZA 2.2 有限状态自动机 2.2.1 用FSA来识别羊的语言 2.2.2 形式语言 2.2.3 另外的例子 2.2.4 非确定FSA 2.2.5 使用NFSA接收符号串 2.2.6 识别就是搜索 2.2.7 确定自动机与非确定自动机的关系 2.3 正则语言与FSA 2.4 小结 2.5 文献和历史说明 第3章 形态学与有限状态转录机 3.1 英语形态学概观 3.1.1 屈折形态学 3.1.2 派生形态学 3.2 有限状态形态剖析 3.2.1 词表和形态顺序规则 3.2.2 用有限状态转录机进行形态剖析 3.2.3 正词法规则和有限状态转录机 3.3 把FST词表与规则相结合 3.4 与词表无关的FST:PORTER词干处理器 3.5 人是怎样进行形态处理的 3.6 小结 3.7 文献和历史说明 第4章 计算音系学与文本-语音转换 4.1 言语语音与语音标音法 4.1.1 发音器官 4.1.2 辅音:发音部位 4.1.3 辅音:发音方法 4.1.4 元音 4.1.5 音节 4.2 音位和音位规则 4.3 音位规则和转录机 4.4 计算音系学中的一些高级问题 4.4.1 元音和谐 4.4.2 模板式形态学 4.4.3 优选理论 4.5 音位规则的机器学习 4.6 TTS中从文本映射到语音 4.6.1 发音词典 4.6.2 词典之外的查找:文本分析 4.6.3 基于有限状态转录机(FST)的发音词典 4.7 文本-语音转换中的韵律 4.7.1 韵律的音系学性质 4.7.2 韵律的语音和声学性质 4.7.3 语音合成中的韵律 4.8 人处理音位和形态的过程 4.9 小结 4.10 文献和历史说明 第5章 发音与拼写的概率模型 5.1 关于拼写错误 5.2 拼写错误模式 5.3 非词错误的检查 5.4 概率模型 5.5 把贝叶斯方法应用于拼写 5.6 最小编辑距离 5.7 英语的发音变异 5.8 发音问题研究中的贝叶斯方法 5.8.1 发音变异的决策树模型 5.9 加权自动机 5.9.1 从加权自动机计算似然度:向前算法 5.9.2 解码:Viterbi算法 5.9.3 加权自动机和切分 5.9.4 用切分来进行词表的自动归纳 5.10 人类发音研究 5.11 小结 5.12 文献和历史说明 第6章 N元语法 6.1 语料库中单词数目的计算 6.2 简单的(非平滑的)N元语法 6.2.1 N元语法及其对训练语料库的敏感性 6.3 平滑 6.3.1 加1平滑 6.3.2 Witten-Bell打折法 6.3.3 Good-Turing打折法 6.4 回退 6.4.1 回退与打折相结合 6.5 删除插值法 6.6 拼写和发音的N元语法 6.6.1 上下文有关的错拼更正 6.6.2 发音模型的N元语法 6.7 熵 6.7.1 用于比较模型的交叉熵 6.7.2 英语的熵 6.8 小结 6.9 文献和历史说明 第7章 HMM与语音识别 7.1 语音识别的总体结构 7.2 隐马尔可夫模型概述 7.3 再谈Viterbi算法 7.4 先进的解码方法 7.4.1 A*解码算法 7.5 语音的声学处理 7.5.1 声波 7.5.2 怎样解释波形 7.5.3 声谱 7.5.4 特征抽取 7.6 声学概率的计算 7.7 语音识别系统的训练 7.8 用于语音合成的波形生成 7.8.1 音高和音延的修正 7.8.2 单元选择 7.9 人的语音识别 7.10 小结 7.11 文献和历史说明 第二部分 句法的计算机处理 第8章 词的分类与词类标注 8.1 大多数英语词的分类 8.2 英语的标记集 8.3 词类标注 8.4 基于规则的词类标注 8.5 随机词类标注 8.5.1 说明问题的一个例子 8.5.2 实际的HMM标注算法 8.6 基于转换的标注 8.6.1 怎样应用TBL规则 8.6.2 怎样学习TBL规则 8.7 其他问题 8.7.1 多重标记和多项词 8.7.2 未知词 8.7.3 基于类的N元语法 8.8 小结 8.9 文献和历史说明 第9章 英语的上下文无关语法 9.1 组成性 9.2 上下文无关规则和树 9.3 句子级的结构 9.4 名词短语 9.4.1 在中心名词前的成分 9.4.2 名词后的成分 9.5 并列关系 9.6 一致关系 9.7 动词短语和次范畴化 9.8 助动词 9.9 口语的句法 9.9.1 不流畅现象 9.10 语法等价与范式 9.11 有限状态语法和上下文无关语法 9.12 语法和人的语言处理 9.13 小结 9.14 文献和历史说明 第10章 基于上下文无关语法的剖析 10.1 剖析就是搜索 10.1.1 自顶向下剖析 10.1.2 自底向上剖析 10.1.3 自顶向下剖析与自底向上剖析的对比 10.2 基本的自顶向下剖析 10.2.1 增加自底向上过滤 10.3 基本的自顶向下剖析的问题 10.3.1 左递归 10.3.2 歧义 10.3.3 子树的重复剖析 10.4 Earley算法 10.4.1 预测 10.4.2 扫描 10.4.3 完成 10.4.4 示例 10.4.5 从线图中检索剖析树 10.5 有限状态剖析方法 10.6 小结 10.7 文献和历史说明 第11章 特征与合一 11.1 特征结构 11.2 特征结构的合一 11.3 语法中的特征结构 11.3.1 一致关系 11.3.2 中心语特征 11.3.3 次范畴化 11.3.4 其他词类的次范畴化 11.3.5 长距离依存关系 11.4 合一的实现 11.4.1 合一的数据结构 11.4.2 合一算法 11.5 带有合一约束的剖析 11.5.1 把合一结合到Earley剖析器中 11.5.2 复制的必要性 11.5.3 合一剖析 11.6 类型与继承 11.6.1 类型的扩充 11.6.2 合一的其他扩充 11.7 小结 11.8 文献和历史说明 第12章 词汇化剖析与概率剖析 12.1 概率上下文无关语法 12.1.1 PCFG的概率CYK剖析 12.1.2 PCFG概率的学习 12.2 PCFG的问题 12.3 概率词汇化的CFG 12.4 依存语法 12.4.1 范畴语法 12.5 人的剖析 12.6 小结 12.7 文献和历史说明 第13章 语言的复杂性 13.1 Chomsky层级 13.2 怎么判断一种语言不是正则的 13.2.1 抽吸引理 13.2.2 英语和其他自然语言是正则语言吗 13.3 自然语言是上下文无关的吗 13.4 计算复杂性和人的语言处理 13.5 小结 13.6 文献和历史说明 第三部分 语义的计算机处理 第14章 意义的表示法 14.1 意义表示的计算要求 14.1.1 可能性验证 14.1.2 无歧义表示 14.1.3 规范形式 14.1.4 推论与变元 14.1.5 表达能力 14.2 语言的意义结构 14.2.1 谓词论元结构 14.3 一阶谓词演算 14.3.1 FOPC基础 14.3.2 FOPC的语义 14.3.3 变量和逻辑量词 14.3.4 推论 14.4 某些与语言学相关的概念 14.4.1 范畴 14.4.2 事件 14.4.3 时间表示 14.4.4 体 14.4.5 信念表示 14.4.6 缺陷 14.5 有关的表示方法 14.6 意义的其他表示方法 14.6.1 作为行动的意义 14.6.2 作为真值的意义 14.7 小结 14.8 文献和历史说明 第15章 语义分析 15.1 句法驱动的语义分析 15.1.1 给上下文无关语法规则扩充语义 15.1.2 量词辖域和复杂项的转译 15.2 给英语片断附加语义分析 15.2.1 句子 15.2.2 名词短语 15.2.3 动词短语 15.2.4 介词短语 15.3 把语义分析结合到Earley剖析中 15.4 惯用语和组成性 15.5 鲁棒的语义分析 15.5.1 语义语法 15.5.2 信息抽取 15.6 小结 15.7 文献和历史说明 第16章 词汇语义学 16.1 词位及其涵义之间的关系 16.1.1 同形关系 16.1.2 多义关系 16.1.3 同义关系 16.1.4 上下位关系 16.2 WORDNET:词汇关系信息库 16.3 词的内在结构 16.3.1 题元角色 16.3.2 选择限制 16.3.3 基元分解 16.3.4 语义场 16.4 语言的创造性与词典 16.4.1 隐喻 16.4.2 换喻 16.4.3 隐喻和换喻的计算方法 16.5 小结 16.6 文献和历史说明 第17章 词义排歧与信息检索 17.1 基于选择限制的排歧 17.1.1 选择限制的局限性 17.2 鲁棒的词义排歧 17.2.1 机器学习方法 17.2.2 基于词典的方法 17.3 信息检索 17.3.1 向量空间模型 17.3.2 检索词加权 17.3.3 检索词的选择和创造 17.3.4 同形关系. 多义关系和同义关系 17.3.5 改进用户的查询条件 17.4 信息检索的其他任务 17.5 小结 17.6 文献和历史说明 第四部分 语用的计算机处理 第18章 话语 18.1 所指判定 18.1.1 所指现象 18.1.2 同指的句法和语义约束 18.1.3 代词解释中的优先关系 18.1.4 代词判定算法 18.2 文本的连贯 18.2.1 现象 18.2.2 基于推理的判定算法 18.3 话语结构 18.4 所指和连贯的心理语言学研究 18.5 小结 18.6 文献和历史说明 第19章 对话与会话智能代理 19.1 什么使对话出现差别 19.1.1 话轮和话段 19.1.2 对话的共同基础 19.1.3 会话隐涵 19.2 对话行为 19.3 对话行为的自动解释 19.3.1 对话行为的计划推理解释 19.3.2 对话行为的基于提示的解释 19.3.3 要点 19.4 对话结构与连贯性 19.5 会话智能代理中的对话管理 19.6 小结 19.7 文献和历史说明 第20章 自然语言生成 20.1 语言生成导引 20.2 生成的体系结构 20.3 表层实现 20.3.1 系统语法 20.3.2 功能合一语法 20.3.3 要点 20.4 话语规划 20.4.1 文本说明图 20.4.2 修辞关系 20.4.3 小结 20.5 其他问题 20.5.1 微规划 20.5.2 词汇选择 20.5.3 生成系统评价 20.5.4 语音生成 20.6 小结 20.7 文献和历史说明 第21章 机器翻译 21.1 语言的相似性和差异性 21.2 转换模型 21.2.1 句法转换 21.2.2 词汇转换 21.3 中间语的思想:使用意义 21.4 直接转换 21.5 使用统计技术 21.5.1 流畅性的量化 21.5.2 忠实性的量化 21.5.3 输出的搜索 21.6 可用性与系统开发 21.7 小结 21.8 文献和历史说明 附录A 正则表达式的算符 附录B PORTER STEMMING算法 附录C 标记集C5和C7 附录D HMM模型的训练:向前-向后算法 参考文献 术语表
  • 模式分类

    作者:Richard O. Duda,Pete

    《模式分类》(原书第2版)的第1版《模式分类与场景分析》出版于1973年,是模式识别和场景分析领域奠基性的经曲名著。在第2版中,除了保留了第1版的关于统计模式识别和结构模式识别的主要内容以外,读者将会发现新增了许多近25年来的新理论和新方法,其中包括神经网络、机器学习、数据挖掘、进化计算、不变量理论、隐马尔可夫模型、统计学习理论和支持向量机等。作者还为未来25年的模式识别的发展指明了方向。书中包含许多实例,各种不同方法的对比,丰富的图表,以及大量的课后习题和计算机练习。
  • 数据挖掘

    作者:Jiawei Han

    ●全面实用地论述了从实际业务数据中抽取出的读者需要知道的概念和技术。 ●更新并结合了来自读者的反馈、数据挖掘领域的技术变化以及统计和机器学习方面的更多资料。 ●包含了许多算法和实现示例,全部以易于理解的伪代码编写,适用子实际的大规模数据挖掘项目。