欢迎来到相识电子书!

标签:自然语言处理

  • Python自然语言处理

    作者:(美)Steven Bird Ew

    自然语言处理(natural language processing,nlp)是计算机科学领域与人工智能领域中的一个重要方向。它研究能够实现人与计算机之间用自然语言进行有效通信的各种理论和方法,涉及所有用计算机对自然语言进行的操作。 《python自然语言处理》是自然语言处理领域的一本实用入门指南,旨在帮助读者学习如何编写程序来分析书面语言。本书基于python编程语言以及一个名为nltk的自然语言工具包的开源库;但并不要求读者有python编程的经验。全书共11章,按照难易程度顺序编排。第1章到3章介绍了语言处理的基础,讲述如何使用小的python程序分析感兴趣的文本信息。第4章讨论结构化程序设计,以巩固前面几章中介绍的编程要点。第5章到第7章介绍语言处理的基本原理,包括标注、分类和信息提取等。第8章到第10章介绍了句子解析、句法结构识别和句意表达方法。第11章介绍了如何有效管理语言数据。后记部分简要讨论了nlp领域的过去和未来。 《python自然语言处理》的实践性很强,包括上百个实际可用的例子和分级练习。本书可供读者用于自学,也可以作为自然语言处理或计算语言学课程的教科书,或是人工智能、文本挖掘、语料库语言学等课程的补充读物。
  • 搜索引擎

    作者:W.Bruce Croft,Donald

    本书介绍了信息检索(IR)中的关键问题,以及这些问题如何影响搜索引擎的设计与实现,并且用数学模型强化了重要的概念。对于网络搜素引擎这一重要的话题,书中主要涵盖了在网络上广泛使用的搜索技术。 本书适用于高等院校计算机科学或计算机工程专业的本科生、研究生,对于专业人士而言,本书也不失为一本理想的入门教材。
  • 统计自然语言处理基础

    作者:Chris Manning,Hinric

    《统计自然语言处理基础:国外计算机科学教材系列》是一本全面系统地介绍统计自然语言处理技术的专著,被国内外许多所著名大学选为计算语言学相关课程的教材。《统计自然语言处理基础:国外计算机科学教材系列》涵盖的内容十分广泛,分为四个部分,共16章,包括了构建自然语言处理软件工具将用到的几乎所有理论和算法。全书的论述过程由浅入深,从数学基础到精确的理论算法,从简单的词法分析到复杂的语法分析,适合不同水平的读者群的需求。同时,《统计自然语言处理基础:国外计算机科学教材系列》将理论与实践紧密联系在一起,在介绍理论知识的基础上给出了自然语言处理技术的高层应用(如信息检索等)。在《统计自然语言处理基础:国外计算机科学教材系列》的配套网站上提供了许多相关资源和工具,便于读者结合书中习题,在实践中获得提高。近年来,自然语言处理中的统计学方法已经逐渐成为主流。
  • Python自然语言处理

    作者:(英)伯德,(英)克莱因,(美)洛普

    《Python自然语言处理(影印版)》提供了非常易学的自然语言处理入门介绍,该领域涵盖从文本和电子邮件预测过滤,到自动总结和翻译等多种语言处理技术。在《Python自然语言处理(影印版)》中,你将学会编写Python程序处理大量非结构化文本。你还将通过使用综合语言数据结构访问含有丰富注释的数据集,理解用于分析书面通信内容和结构的主要算法。 《Python自然语言处理》准备了充足的示例和练习,可以帮助你: 从非结构化文本中抽取信息,甚至猜测主题或识别“命名实体”; 分析文本语言结构,包括解析和语义分析; 访问流行的语言学数据库,包括WordNet和树库(treebank); 从多种语言学和人工智能领域中提取的整合技巧。 《Python自然语言处理(影印版)》将帮助你学习运用Python编程语言和自然语言工具包(NLTK)获得实用的自然语言处理技能。如果对于开发Web应用、分析多语言新闻源或记录濒危语言感兴趣——即便只是想从程序员视角观察人类语言如何运作,你将发现《Python自然语言处理》是一本令人着迷且极为有用的好书。
  • 统计自然语言处理

    作者:宗成庆

    内容简介 本书全面介绍了统计自然语言处理的基本概念、理论方法和最新研究进展,内容包括形式语言与自动机及其在自然语言处理中的应用、语言模型、隐马尔可夫模型、语料库技术、汉语自动分词与词性标注、句法分析、词义消歧、统计机器翻译、语音翻译、文本分类、信息检索与问答系统、自动文摘和信息抽取、口语信息处理与人机对话系统等,既有对基础知识和理论模型的介绍,也有对相关问题的研究背景、实现方法和技术现状的详细阐述。 本书可作为高等院校计算机、信息技术等相关专业的高年级本科生或研究生的教材或参考书,也可供从事自然语言处理、数据挖掘和人工智能等研究的相关人员参考。 ------- 目录 第1章 绪论 1.1 基本概念 1.1.1 语言学与语音学 1.1.2 自然语言处理 1.1.3 关于“理解”的标准 1.2 自然语言处理研究的内容和面临的困难 1.2.1 自然语言处理研究的内容 1.2.2 自然语言处理涉及的几个层次 1.2.3 自然语言处理面临的困难 1.3 自然语言处理的基本方法及其发展 1.3.1 自然语言处理的基本方法 1.3.2 自然语言处理的发展 1.4 自然语言处理的研究现状 第2章 预备知识 2.1 概率论基本概念 2.1.1 概率 2.1.2 最大似然估计 2.1.3 条件概率 2.1.4 贝叶斯法则 2.1.5 随机变量 2.1.6 二项式分布 2.1.7 联合概率分布和条件概率分布 2.1.8 贝叶斯决策理论 2.1.9 期望和方差 2.2 信息论基本概念 2.2.1 熵 2.2.2 联合熵和条件熵192.2.3 互信息 2.2.4 相对熵 2.2.5 交叉熵 2.2.6 困惑度 2.2.7 噪声信道模型 2.3 支持向量机 2.3.1 线性分类 2.3.2 线性不可分 2.3.3 构造核函数 第3章 形式语言与自动机 第4章 语料库与词汇知识库 第5章 语言模型 第6章 隐马尔可夫模型 第7章 汉语自动分词与词性标注 第8章 句法分析 第9章 语义消歧 第10章 统计机器翻译 第11章 语音翻译 第12章 文本分类 第13章 信息检索与问答系统 第14章 自动文摘与信息抽取 第15章 口语信息处理与人机对话系统 附录 项目作业 名词术语索引 参考文献
  • Introduction to Information Retrieval

    作者:Christopher D. Manni

    Class-tested and coherent, this groundbreaking new textbook teaches classic web information retrieval, including web search and the related areas of text classification and text clustering from basic concepts. Written from a computer science perspective by three leading experts in the field, it gives an up-to-date treatment of all aspects of the design and implementation of systems for gathering, indexing, and searching documents; methods for evaluating systems; and an introduction to the use of machine learning methods on text collections. All the important ideas are explained using examples and figures, making it perfect for introductory courses in information retrieval for advanced undergraduates and graduate students in computer science. Based on feedback from extensive classroom experience, the book has been carefully structured in order to make teaching more natural and effective. Although originally designed as the primary text for a graduate or advanced undergraduate course in information retrieval, the book will also create a buzz for researchers and professionals alike. Contents 1. Information retrieval using the Boolean model; 2. The dictionary and postings lists; 3. Tolerant retrieval; 4. Index construction; 5. Index compression; 6. Scoring and term weighting; 7. Vector space retrieval; 8. Evaluation in information retrieval; 9. Relevance feedback and query expansion; 10. XML retrieval; 11. Probabilistic information retrieval; 12. Language models for information retrieval; 13. Text classification and Naive Bayes; 14. Vector space classification; 15. Support vector machines and kernel functions; 16. Flat clustering; 17. Hierarchical clustering; 18. Dimensionality reduction and latent semantic indexing; 19. Web search basics; 20. Web crawling and indexes; 21. Link analysis. Reviews “This is the first book that gives you a complete picture of the complications that arise in building a modern web-scale search engine. You'll learn about ranking SVMs, XML, DNS, and LSI. You'll discover the seedy underworld of spam, cloaking, and doorway pages. You'll see how MapReduce and other approaches to parallelism allow us to go beyond megabytes and to efficiently manage petabytes." -Peter Norvig, Director of Research, Google Inc. "Introduction to Information Retrieval is a comprehensive, up-to-date, and well-written introduction to an increasingly important and rapidly growing area of computer science. Finally, there is a high-quality textbook for an area that was desperately in need of one." -Raymond J. Mooney, Professor of Computer Sciences, University of Texas at Austin “Through compelling exposition and choice of topics, the authors vividly convey both the fundamental ideas and the rapidly expanding reach of information retrieval as a field.” -Jon Kleinberg, Professor of Computer Science, Cornell University
  • 文本挖掘

    作者:(以)费尔德曼,(美)桑格

    《文本挖掘(英文版)》是一部文本挖掘领域名著,作者为世界知名的权威学者。书中涵盖了核心文本挖掘操作、文本挖掘预处理技术、分类、聚类、信息提取、信息提取的概率模型、预处理应用、可视化方法、链接分析、文本挖掘应用等内容,很好地结合了文本挖掘的理论和实践。《文本挖掘(英文版)》非常适合文本挖掘、信息检索领域的研究人员和实践者阅读,也适合作为高等院校计算机及相关专业研究生的数据挖掘和知识发现等课程的教材。
  • 自然语言处理综论

    作者:Daniel Jurafsky,Jame

    本书是一本全面系统地讲述计算机自然语言处理的优秀教材。本书英文版出版之后好评如潮,国外许多著名大学纷纷把本书选为自然语言处理和计算语言学课程的主要教材,该书被誉为该领域教材的“黄金标准”。本书包含的内容十分丰富,分为四个部分,共21章,深入细致地探讨了计算机处理自然语言的词汇、句法、语义、语用等各个方面的问题,介绍了自然语言处理的各种现代技术。从层次的角度看,本书的论述是按照自然语言的不同层面逐步展开的,首先论述单词的自动形态分析,接着论述自动句法分析,然后论述各种语言单位的自动语义分析,最后论述连贯文本的自动分析、对话与会话的智能代理以及自然语言生成。从技术的角度看,本书介绍了正则表达式、有限状态自动机、文本-语音转换、发音与拼写的概率模型、词类自动标注、N元语法、隐马尔可夫模型、上下文无关语法、特征与合一、词汇化剖析与概率剖析、一阶谓词演算、词义排歧、修辞结构理论、机器翻译等非常广泛的内容。本书具有“覆盖全面、注重实用、强调评测、语料为本”四大特色。在本书的配套网站上,还提供了相关的资源和工具,便于读者在实践中进一步提高。 ------- 目录 第1章 导论 1.1 语音与语言处理中的知识 1.2 歧义 1.3 模型和算法 1.4 语言. 思维和理解 1.5 学科现状与近期发展 1.6 语音和语言处理简史 1.6.1 基础研究:20世纪40年代和20世纪50年代 1.6.2 两个阵营:1957年至1970年 1.6.3 四个范型:1970年至1983年 1.6.4 经验主义和有限状态模型的复苏:1983年至1993年 1.6.5 不同领域的合流:1994年至1999年 1.6.6 多重发现 1.6.7 心理学的简要注记 1.7 小结 1.8 文献和历史说明 第一部分 词汇的计算机处理 第2章 正则表达式与自动机 2.1 正则表达式 2.1.1 基本正则表达式模式 2.1.2 析取. 组合与优先关系 2.1.3 一个简单的例子 2.1.4 一个比较复杂的例子 2.1.5 高级算符 2.1.6 正则表达式中的替换. 存储器与ELIZA 2.2 有限状态自动机 2.2.1 用FSA来识别羊的语言 2.2.2 形式语言 2.2.3 另外的例子 2.2.4 非确定FSA 2.2.5 使用NFSA接收符号串 2.2.6 识别就是搜索 2.2.7 确定自动机与非确定自动机的关系 2.3 正则语言与FSA 2.4 小结 2.5 文献和历史说明 第3章 形态学与有限状态转录机 3.1 英语形态学概观 3.1.1 屈折形态学 3.1.2 派生形态学 3.2 有限状态形态剖析 3.2.1 词表和形态顺序规则 3.2.2 用有限状态转录机进行形态剖析 3.2.3 正词法规则和有限状态转录机 3.3 把FST词表与规则相结合 3.4 与词表无关的FST:PORTER词干处理器 3.5 人是怎样进行形态处理的 3.6 小结 3.7 文献和历史说明 第4章 计算音系学与文本-语音转换 4.1 言语语音与语音标音法 4.1.1 发音器官 4.1.2 辅音:发音部位 4.1.3 辅音:发音方法 4.1.4 元音 4.1.5 音节 4.2 音位和音位规则 4.3 音位规则和转录机 4.4 计算音系学中的一些高级问题 4.4.1 元音和谐 4.4.2 模板式形态学 4.4.3 优选理论 4.5 音位规则的机器学习 4.6 TTS中从文本映射到语音 4.6.1 发音词典 4.6.2 词典之外的查找:文本分析 4.6.3 基于有限状态转录机(FST)的发音词典 4.7 文本-语音转换中的韵律 4.7.1 韵律的音系学性质 4.7.2 韵律的语音和声学性质 4.7.3 语音合成中的韵律 4.8 人处理音位和形态的过程 4.9 小结 4.10 文献和历史说明 第5章 发音与拼写的概率模型 5.1 关于拼写错误 5.2 拼写错误模式 5.3 非词错误的检查 5.4 概率模型 5.5 把贝叶斯方法应用于拼写 5.6 最小编辑距离 5.7 英语的发音变异 5.8 发音问题研究中的贝叶斯方法 5.8.1 发音变异的决策树模型 5.9 加权自动机 5.9.1 从加权自动机计算似然度:向前算法 5.9.2 解码:Viterbi算法 5.9.3 加权自动机和切分 5.9.4 用切分来进行词表的自动归纳 5.10 人类发音研究 5.11 小结 5.12 文献和历史说明 第6章 N元语法 6.1 语料库中单词数目的计算 6.2 简单的(非平滑的)N元语法 6.2.1 N元语法及其对训练语料库的敏感性 6.3 平滑 6.3.1 加1平滑 6.3.2 Witten-Bell打折法 6.3.3 Good-Turing打折法 6.4 回退 6.4.1 回退与打折相结合 6.5 删除插值法 6.6 拼写和发音的N元语法 6.6.1 上下文有关的错拼更正 6.6.2 发音模型的N元语法 6.7 熵 6.7.1 用于比较模型的交叉熵 6.7.2 英语的熵 6.8 小结 6.9 文献和历史说明 第7章 HMM与语音识别 7.1 语音识别的总体结构 7.2 隐马尔可夫模型概述 7.3 再谈Viterbi算法 7.4 先进的解码方法 7.4.1 A*解码算法 7.5 语音的声学处理 7.5.1 声波 7.5.2 怎样解释波形 7.5.3 声谱 7.5.4 特征抽取 7.6 声学概率的计算 7.7 语音识别系统的训练 7.8 用于语音合成的波形生成 7.8.1 音高和音延的修正 7.8.2 单元选择 7.9 人的语音识别 7.10 小结 7.11 文献和历史说明 第二部分 句法的计算机处理 第8章 词的分类与词类标注 8.1 大多数英语词的分类 8.2 英语的标记集 8.3 词类标注 8.4 基于规则的词类标注 8.5 随机词类标注 8.5.1 说明问题的一个例子 8.5.2 实际的HMM标注算法 8.6 基于转换的标注 8.6.1 怎样应用TBL规则 8.6.2 怎样学习TBL规则 8.7 其他问题 8.7.1 多重标记和多项词 8.7.2 未知词 8.7.3 基于类的N元语法 8.8 小结 8.9 文献和历史说明 第9章 英语的上下文无关语法 9.1 组成性 9.2 上下文无关规则和树 9.3 句子级的结构 9.4 名词短语 9.4.1 在中心名词前的成分 9.4.2 名词后的成分 9.5 并列关系 9.6 一致关系 9.7 动词短语和次范畴化 9.8 助动词 9.9 口语的句法 9.9.1 不流畅现象 9.10 语法等价与范式 9.11 有限状态语法和上下文无关语法 9.12 语法和人的语言处理 9.13 小结 9.14 文献和历史说明 第10章 基于上下文无关语法的剖析 10.1 剖析就是搜索 10.1.1 自顶向下剖析 10.1.2 自底向上剖析 10.1.3 自顶向下剖析与自底向上剖析的对比 10.2 基本的自顶向下剖析 10.2.1 增加自底向上过滤 10.3 基本的自顶向下剖析的问题 10.3.1 左递归 10.3.2 歧义 10.3.3 子树的重复剖析 10.4 Earley算法 10.4.1 预测 10.4.2 扫描 10.4.3 完成 10.4.4 示例 10.4.5 从线图中检索剖析树 10.5 有限状态剖析方法 10.6 小结 10.7 文献和历史说明 第11章 特征与合一 11.1 特征结构 11.2 特征结构的合一 11.3 语法中的特征结构 11.3.1 一致关系 11.3.2 中心语特征 11.3.3 次范畴化 11.3.4 其他词类的次范畴化 11.3.5 长距离依存关系 11.4 合一的实现 11.4.1 合一的数据结构 11.4.2 合一算法 11.5 带有合一约束的剖析 11.5.1 把合一结合到Earley剖析器中 11.5.2 复制的必要性 11.5.3 合一剖析 11.6 类型与继承 11.6.1 类型的扩充 11.6.2 合一的其他扩充 11.7 小结 11.8 文献和历史说明 第12章 词汇化剖析与概率剖析 12.1 概率上下文无关语法 12.1.1 PCFG的概率CYK剖析 12.1.2 PCFG概率的学习 12.2 PCFG的问题 12.3 概率词汇化的CFG 12.4 依存语法 12.4.1 范畴语法 12.5 人的剖析 12.6 小结 12.7 文献和历史说明 第13章 语言的复杂性 13.1 Chomsky层级 13.2 怎么判断一种语言不是正则的 13.2.1 抽吸引理 13.2.2 英语和其他自然语言是正则语言吗 13.3 自然语言是上下文无关的吗 13.4 计算复杂性和人的语言处理 13.5 小结 13.6 文献和历史说明 第三部分 语义的计算机处理 第14章 意义的表示法 14.1 意义表示的计算要求 14.1.1 可能性验证 14.1.2 无歧义表示 14.1.3 规范形式 14.1.4 推论与变元 14.1.5 表达能力 14.2 语言的意义结构 14.2.1 谓词论元结构 14.3 一阶谓词演算 14.3.1 FOPC基础 14.3.2 FOPC的语义 14.3.3 变量和逻辑量词 14.3.4 推论 14.4 某些与语言学相关的概念 14.4.1 范畴 14.4.2 事件 14.4.3 时间表示 14.4.4 体 14.4.5 信念表示 14.4.6 缺陷 14.5 有关的表示方法 14.6 意义的其他表示方法 14.6.1 作为行动的意义 14.6.2 作为真值的意义 14.7 小结 14.8 文献和历史说明 第15章 语义分析 15.1 句法驱动的语义分析 15.1.1 给上下文无关语法规则扩充语义 15.1.2 量词辖域和复杂项的转译 15.2 给英语片断附加语义分析 15.2.1 句子 15.2.2 名词短语 15.2.3 动词短语 15.2.4 介词短语 15.3 把语义分析结合到Earley剖析中 15.4 惯用语和组成性 15.5 鲁棒的语义分析 15.5.1 语义语法 15.5.2 信息抽取 15.6 小结 15.7 文献和历史说明 第16章 词汇语义学 16.1 词位及其涵义之间的关系 16.1.1 同形关系 16.1.2 多义关系 16.1.3 同义关系 16.1.4 上下位关系 16.2 WORDNET:词汇关系信息库 16.3 词的内在结构 16.3.1 题元角色 16.3.2 选择限制 16.3.3 基元分解 16.3.4 语义场 16.4 语言的创造性与词典 16.4.1 隐喻 16.4.2 换喻 16.4.3 隐喻和换喻的计算方法 16.5 小结 16.6 文献和历史说明 第17章 词义排歧与信息检索 17.1 基于选择限制的排歧 17.1.1 选择限制的局限性 17.2 鲁棒的词义排歧 17.2.1 机器学习方法 17.2.2 基于词典的方法 17.3 信息检索 17.3.1 向量空间模型 17.3.2 检索词加权 17.3.3 检索词的选择和创造 17.3.4 同形关系. 多义关系和同义关系 17.3.5 改进用户的查询条件 17.4 信息检索的其他任务 17.5 小结 17.6 文献和历史说明 第四部分 语用的计算机处理 第18章 话语 18.1 所指判定 18.1.1 所指现象 18.1.2 同指的句法和语义约束 18.1.3 代词解释中的优先关系 18.1.4 代词判定算法 18.2 文本的连贯 18.2.1 现象 18.2.2 基于推理的判定算法 18.3 话语结构 18.4 所指和连贯的心理语言学研究 18.5 小结 18.6 文献和历史说明 第19章 对话与会话智能代理 19.1 什么使对话出现差别 19.1.1 话轮和话段 19.1.2 对话的共同基础 19.1.3 会话隐涵 19.2 对话行为 19.3 对话行为的自动解释 19.3.1 对话行为的计划推理解释 19.3.2 对话行为的基于提示的解释 19.3.3 要点 19.4 对话结构与连贯性 19.5 会话智能代理中的对话管理 19.6 小结 19.7 文献和历史说明 第20章 自然语言生成 20.1 语言生成导引 20.2 生成的体系结构 20.3 表层实现 20.3.1 系统语法 20.3.2 功能合一语法 20.3.3 要点 20.4 话语规划 20.4.1 文本说明图 20.4.2 修辞关系 20.4.3 小结 20.5 其他问题 20.5.1 微规划 20.5.2 词汇选择 20.5.3 生成系统评价 20.5.4 语音生成 20.6 小结 20.7 文献和历史说明 第21章 机器翻译 21.1 语言的相似性和差异性 21.2 转换模型 21.2.1 句法转换 21.2.2 词汇转换 21.3 中间语的思想:使用意义 21.4 直接转换 21.5 使用统计技术 21.5.1 流畅性的量化 21.5.2 忠实性的量化 21.5.3 输出的搜索 21.6 可用性与系统开发 21.7 小结 21.8 文献和历史说明 附录A 正则表达式的算符 附录B PORTER STEMMING算法 附录C 标记集C5和C7 附录D HMM模型的训练:向前-向后算法 参考文献 术语表
  • Foundations of Statistical Natural Language Processing

    作者:Christopher D. Manni

    Statistical approaches to processing natural language text have become dominant in recent years. This foundational text is the first comprehensive introduction to statistical natural language processing (NLP) to appear. The book contains all the theory and algorithms needed for building NLP tools. It provides broad but rigorous coverage of mathematical and linguistic foundations, as well as detailed discussion of statistical methods, allowing students and researchers to construct their own implementations. The book covers collocation finding, word sense disambiguation, probabilistic parsing, information retrieval, and other applications.