欢迎来到相识电子书!
深入搜索引擎

深入搜索引擎

作者:ian H. Witten,Alista

分类:文学

ISBN:9787121084911

出版时间:2009-6

出版社:电子工业出版社

标签: 搜索引擎  信息检索  数据挖掘  计算机  搜索  深入搜索引擎  算法信息论  技术 

章节目录

第1章 概览 1.1 文档数据库(DOCUMENT DATABASES) 1.2 压缩(COMPRESSION) 1.3 索引(INDEXES) 1.4 文档索引 1.5 MG海量文档管理系统 1.6 进一步阅读 第2章 文本压缩 2.1 模型 2.2 自适应模型 2.3 哈夫曼编码 范式哈夫曼编码 计算哈夫曼编码长度 总结 2.4 算术编码 算术编码是如何工作的 实现算术编码 保存累积计数 2.5 符号模型 部分匹配预测 块排序压缩 动态马尔科夫压缩 基于单字的压缩 2.6 字典模型 自适应字典编码器的LZ77系列 LZ77的Gzip变体 自适应字典编码器的LZ78系列 LZ78的LZW变体 2.7 同步 创造同步点 自同步编码 2.8 性能比较 压缩性能 压缩速度 其他性能方面的考虑 2.9 进一步阅读 第3章 索引 3.1 样本文档集合 3.2 倒排文件索引 3.3 压缩倒排文件 无参模型(Nonparameterized models) 全局贝努里模型 全局观测频率模型(Global observed frequency model) 局部贝努里模型(Local Bernoulli model) 有偏贝努里模型(Skewed Bernoulli model) 局部双曲模型(Local hyperbolic model) 局部观测频率模型(Local observed frequency model) 上下文相关压缩(Context-sensitive compression) 3.4 索引压缩方法的效果 3.5 签名文件和位图 签名文件 位片签名文件(Bitsliced signature files) 签名文件分析 位图 签名文件和位图的压缩 3.6 索引方法的比较 3.7 大小写折叠、词根化和停用词 大小写折叠 词根化 影响索引长度的因素 停用词(stop word) 3.8 进一步阅读 第4章 查询 4.1 访问字典的方法 访问数据结构 前端编码(Front coding) 最小完美哈希函数 完美哈希函数的设计 基于磁盘的字典存储 4.2 部分指定的查询术语 字符串暴力匹配(Brute-force string matching) 用n-gram索引 循环字典(Rotated lexicon) 4.3 布尔查询(BOOLEAN QUERY) 合取查询(conjunctive query) 术语处理顺序 随机访问和快速查找 分块倒排索引 非合取查询(Nonconjunctive query) 4.4 信息检索和排名 坐标匹配(Coordinate matching) 内积相似度 向量空间模型 4.5 检索效果评价 召回率和精确率 召回率-精确率曲线 TREC项目 208 万维网搜索(World Wide Web Searching) 其他有效性评价方法 4.6 余弦法实现 文档内频率 余弦值的计算方法 文档权重所需的内存 累加器内存 快速查询处理 按频率排序的索引 排序 4.7 交互式检索 相关性反馈 概率模型 4.8 分布式检索 4.9 进一步阅读 第5章 索引构造 第6章 图像压缩 第7章 文本图像 第8章 混合图文 第9章 系统实现 第10章 信息爆炸 附录A MG系统指南 附录B 新西兰图书馆

内容简介

《深入搜索引擎:海量信息的压缩、索引和查询》是斯坦福大学信息检索和挖掘课程的首选教材之一,并已成为全球主要大学信息检索的主要教材。《深入搜索引擎:海量信息的压缩、索引和查询》理论和实践并重,深入浅出地给出了海量信息数据处理的整套解决方案,包括压缩、索引和查询的方方面面。其最大的特色在于不仅仅满足信息检索理论学习的需要,更重要的是给出了实践中可能面对的各种问题及其解决方法。 《深入搜索引擎:海量信息的压缩、索引和查询》作为斯坦福大学信息检索课程的教材之一,具有一定的阅读难度,主要面向信息检索专业高年级本科生和研究生、搜索引擎业界的专业技术人员和从事海量数据处理相关专业的技术人员。

下载说明

1、深入搜索引擎是作者ian H. Witten,Alista创作的原创作品,下载链接均为网友上传的网盘链接!

2、相识电子书提供优质免费的txt、pdf等下载链接,所有电子书均为完整版!

下载链接

热门评论

  • 第一颗大豆的评论
    看完了《数学之美》,最开始我以为我会很艰难地看完,因为数学的东西会很枯燥。但是这本书深入浅出,涉及的很多技术如自然语言处理,搜索引擎原理,分类和聚类原理等很多大数据的分析方法,作者都用简单朴素的道理说清楚。有一口气读完的冲动,很有趣,书中用了很多通信理论阐述也让我倍感亲切。
  • Guandare-QP的评论
    喜欢做全能型学者的人大约有两条路可以选择,第一是文献全能路径,即通过深入掌握文献而达到全能;第二是引擎全能路径,即通过搜索引擎获取更为丰富的资料,包括文献摘要、媒体材料以及社群的知识,进而达到全能。显然,后者看起来更“全能”,但就学术研究来说,前者是靠谱的。
  • 新民晚报新民网的评论
    【今年“扫黄打非”聚焦互联网:坚决依法追责第三方服务提供者】4日,全国“扫黄打非”办公室负责人透露,将继续以互联网为主战场,全面深入开展“净网2016”、“护苗2016”和“秋风2016”等专项行动,严厉打击顶风制作传播淫秽色情信息的门户网站、视频网站、搜索引擎等。via新华网
  • 图灵教育的评论
    #好书推荐# 《网站创富:从搭建、管理到营利》 聚焦于如何搭建、 管理一个网站,并进行营利,@月光博客 作品,试读:【试读】《网站创富:... 《SEO教程:搜索引擎优化入门与进阶(第3版)》深入剖析了搜索引擎优化的各个细节,吴泽欣作品。 试读:网页链接
  • 优秀网页设计的评论
    【30万可商用的图片!PIXABAY+图片搜索引擎】今天这篇源自之前合集里推荐过的一个图库,实际深入使用后发现它确实是个极佳的图片素材库,提供了大量且可以免费使用的图,包含商业用途,无须署名。另附一个可按颜色和标签搜索图片的引擎。怒戳→图库两连发!有三十万...
  • 互联网实验室的评论
    1月13日(周三)下午,互联网实验室将举办百度血友病贴吧事件研讨会,专家学者们将专业、理性、中立地深入讨论搜索引擎商业模式的边界和企业社会责任。话题包括搜索引擎的规范和社会责任、百度莆田系问题、百度用户协议问题、百度竞价排名模式、百度贴吧商业化问题、百度百科商业化问题等。敬请关注!
  • 嗜橘如命的评论
    读学术论文的好处是,一开始看上去很难很费劲,知识框架了然于胸之后,看文章会变得很快,再深入一点,就能一眼看出文章优劣,哪怕只是题目,垃圾论文根本不是障碍,你会在使用搜索引擎时就把它们排除在你的题录之外。
  • skytraveller的评论
    #中国工商报官微发布云在指尖、WV等公司被定性为传销后不久又自删原文#随着网络的不断发展,搜索在人们的生活中也渗透的越来越深入。搜索引擎在方便我们生活的同时,也在完善着我们。无论如何,还是希望新的一年,一切会更好。search on[可爱]百度公布2015年度...
  • TECH2IPO创见的评论
    #TechOpinion# 【要优雅,不要污:A 片明星如何在搜索引擎中将自己洗白?】tech2ipo.c...欢迎你开启一个新世界的大门,你会从本文中深入了解在线声誉管理这门生意的秘密,有大量明星名人以及知名公司都是通过这种管理手段让自己在网上看上去无比纯洁。
  • 听海沙的声音的评论
    魏则西事件把百度推广以及医院外包模式推上风口浪尖,据我推测,下一步其他搜索引擎也会暴露弊端,然后事件当事人相继发声,国家深入调查,然后跟首都看病挂不上号事件一样最后不了了之,因为医疗弊端以及网络整洁弊端,是没有大决心大毅力根本办不了的,尤其是医疗,会动摇国之根本
  • 今年本命年要转运的评论
    深入了解这一行并正在从事相关方面的工作以后,我深深感觉到所有搜索引擎竞价排名机制的恶心和以及众多商家的无奈。中国的网民是有热血的也是健忘的,越是从事互联网工作越是对所有的热点新闻都保持十二分的怀疑态度。
  • 刘南军网络营销的评论
    值得你深入研究的一张搜索引擎工作原理图,一张图要用3天才能讲懂