数据挖掘电子书下载-相识电子书

标签：数据挖掘

精通Web Analytics 2.0

作者：[美]Avinash Kaushik

向数据驱动型决策转变以及如何利用网站数据来获得竞争优势在过去几年中，互联网、在线营销以及广告经历了巨大的变革，然而大家处理数据的方式跟几十年前相比还是大同小异，停滞不前。网站分析领域的领跑者Analytics kaushik通过《精通Web Analytics 2.0——用户中心科学与在线统计艺术》提出了下一代网站分析的框架，将能很大程度地帮助你提高组织的能动性和对市场的反应速度。在本书中，Analytics将点击流网站分析工具与定性数据、测试与试验以及竞争情报工具相结合，从而推演出详尽的网站战略以及操作层方案。在他的第一本畅销书《精通Web Analytics——来自专家的最佳web分析策略》(清华大学出版社引进并出版)中，Analytics给出了很多基于行业的经验总结，而在本书中，他进一步阐述了如何去衡量、分析目前互联网上出现的新技术和应用，并在此基础上快速行动。这些新技术和应用包括：社交媒体、视频、移动互联网上以及用户为中心的设计等。作者通过对传统方法的改造，对互联网数据进行抽丝剥茧般的分析，提出了具体、简单以及更先进的方法。如果你想成为网站分析专家，本书将是你的最佳选择。
R Cookbook

作者：Paul Teetor

With more than 200 practical recipes, this book helps you perform data analysis with R quickly and efficiently. The R language provides everything you need to do statistical work, but its structure can be difficult to master. This collection of concise, task-oriented recipes makes you productive with R immediately, with solutions ranging from basic tasks to input and output, general statistics, graphics, and linear regression. Each recipe addresses a specific problem, with a discussion that explains the solution and offers insight into how it works. If you're a beginner, R Cookbook will help get you started. If you're an experienced data programmer, it will jog your memory and expand your horizons. You'll get the job done faster and learn more about R in the process. * Create vectors, handle variables, and perform other basic functions * Input and output data * Tackle data structures such as matrices, lists, factors, and data frames * Work with probability, probability distributions, and random variables * Calculate statistics and confidence intervals, and perform statistical tests * Create a variety of graphic displays * Build statistical models with linear regressions and analysis of variance (ANOVA) * Explore advanced statistical techniques, such as finding clusters in your data "Wonderfully readable, R Cookbook serves not only as a solutions manual of sorts, but as a truly enjoyable way to explore the R language-one practical example at a time." -Jeffrey Ryan, software consultant and R package author
深入浅出数据分析

作者：Michael Milton

《深入浅出数据分析》以类似“章回小说”的活泼形式，生动地向读者展现优秀的数据分析人员应知应会的技术：数据分析基本步骤、实验方法、最优化方法、假设检验方法、贝叶斯统计方法、主观概率法、启发法、直方图法、回归法、误差处理、相关数据库、数据整理技巧；正文以后，意犹未尽地以三篇附录介绍数据分析十大要务、R工具及ToolPak工具，在充分展现目标知识以外，为读者搭建了走向深入研究的桥梁。本书构思跌宕起伏，行文妙趣横生，无论是职场老手，还是业界新人，无论是字斟句酌，还是信手翻阅，相信都能跟着文字在职场中走上几回，去体味数据分析领域的乐趣与挑战。
统计模型

作者：弗里曼

《统计模型:理论和实践(原书第2版)》是一本优秀的统计模型教材，着重讲解线性模型的应用问题，包括广义最小二乘和两步最小二乘模型，以及二分变量的probit及logit模型的应用。《统计模型:理论和实践(原书第2版)》还包括关于研究设计、二分变量回归及矩阵代数的背景知识。此外,《统计模型:理论和实践(原书第2版)》附有大量的练习，并且其中多数练习题在书后都有答案，便于读者学习、巩固和提高。温馨提示：本书2012年11月第一版第二次印刷与2010年9月第一版第一次印刷，是一个版本，只是不同的印次，书的内容没有任何变化，请客户知悉。
Big Data

作者：Viktor Mayer-Schönbe

National Bestseller “No other book offers such an accessible and balanced tour of the many benefits and downsides of our continuing infatuation with data.”—Wall Street Journal “What I’m certain about is that Big Data will be the defining text in the discussion for some time to come.”—Forbes.com It seems like “big data” is in the news every day, with new examples of how powerful algorithms are teasing out the hidden connections between seemingly unrelated things. Whether it is used by the NSA to fight terrorism or by online retailers to predict customers’ buying patterns, big data is a revolution occurring around us, in the process of forever changing economics, science, culture, and the very way we think. But it also poses new threats, from the end of privacy as we know it to the prospect of being penalized for things we haven’t even done yet, based on big data’s ability to predict our future behavior. Big Data is the first big book about this earthshaking subject, with two leading experts explaining what big data is, how it will change our lives, and what we can do to protect ourselves from its hazards.
机器学习

作者：（美）Drew Conway,John

这本书为机器学习技术提供了一些非常棒的案例研究。它并不想成为一本关于机器学习的工具书或者理论书籍，它注重的是一个学习的过程，因而对于任何有一些编程背景和定量思维的人来说，它都是不错的选择。 ——Max Shron OkCupid 机器学习是计算机科学和人工智能中非常重要的一个研究领域，近年来，机器学习不但在计算机科学的众多领域中大显身手，而且成为一些交叉学科的重要支撑技术。本书比较全面系统地介绍了机器学习的方法和技术，不仅详细阐述了许多经典的学习方法，还讨论了一些有生命力的新理论、新方法。全书案例既有分类问题，也有回归问题；既包含监督学习，也涵盖无监督学习。本书讨论的案例从分类讲到回归，然后讨论了聚类、降维、最优化问题等。这些案例包括分类：垃圾邮件识别，排序：智能收件箱，回归模型：预测网页访问量，正则化：文本回归，最优化：密码破解，无监督学习：构建股票市场指数，空间相似度：用投票记录对美国参议员聚类，推荐系统：给用户推荐R语言包，社交网络分析：在Twitter上感兴趣的人，模型比较：给你的问题找到最佳算法。各章对原理的叙述力求概念清晰、表达准确，突出理论联系实际，富有启发性，易于理解。在探索这些案例的过程中用到的基本工具就是R统计编程语言。R语言非常适合用于机器学习的案例研究，因为它是一种用于数据分析的高水平、功能性脚本语言。本书主要内容： ·开发一个朴素贝叶斯分类器，仅仅根据邮件的文本信息来判断这封邮件是否是垃圾邮件； ·使用线性回归来预测互联网排名前1000网站的PV； ·利用文本回归理解图书中词与词之间的关系； ·通过尝试破译一个简单的密码来学习优化技术； ·利用无监督学习构建股票市场指数，用于衡量整体市场行情的好坏； ·根据美国参议院的投票情况，从统计学的角度对美国参议员聚类； ·通过K近邻算法构建向用户推荐R语言包； ·利用Twitter数据来构建一个“你可能感兴趣的人”的推荐系统； ·模型比较：给你的问题找到最佳算法。
SPSS其实很简单

作者：罗纳德·D·约克奇|译者:刘超//吴铮

《SPSS其实很简单》力图打破这种局面：从实际问题入手，剥离出需要研究的问题，帮助读者理解如何选择恰当的统计方法。软件的发展，使统计从专业方法变成大众的游戏。只要输入格式无误的数据，就能得到漂亮的结果，然而最重要的问题一一方法的选择以及结果的解读却被忽略。从使用SPSS生成变量开始，到最终实现撰写APA（美国心理协会）格式的结果，提供SPSS每一操作步骤的截图，并对输出结果进行解读，帮助读者在面对大量输出结果时，快速有效地找到所需部分，并做出合理分析。总结统计方法使用的前提假设和利用SPSS进行各种统计分析的程序步骤，带领读者理解统计方法的实质。
利用Python进行数据分析

作者：Wes McKinney

【名人推荐】 “科学计算和数据分析社区已经等待这本书很多年了：大量具体的实践建议，以及大量综合应用方法。本书在未来几年里肯定会成为Python领域中技术计算的权威指南。” ——Fernando Pérez　加州大学伯克利分校研究科学家， IPython的创始人之一【内容简介】还在苦苦寻觅用Python控制、处理、整理、分析结构化数据的完整课程？本书含有大量的实践案例，你将学会如何利用各种Python库（包括NumPy、pandas、matplotlib以及IPython等）高效地解决各式各样的数据分析问题。由于作者Wes McKinney是pandas库的主要作者，所以本书也可以作为利用Python实现数据密集型应用的科学计算实践指南。本书适合刚刚接触Python的分析人员以及刚刚接触科学计算的Python程序员。 •将IPython这个交互式Shell作为你的首要开发环境。 •学习NumPy（Numerical Python）的基础和高级知识。 •从pandas库的数据分析工具开始。 •利用高性能工具对数据进行加载、清理、转换、合并以及重塑。 •利用matplotlib创建散点图以及静态或交互式的可视化结果。 •利用pandas的groupby功能对数据集进行切片、切块和汇总操作。 •处理各种各样的时间序列数据。 •通过详细的案例学习如何解决Web分析、社会科学、金融学以及经•济学等领域的问题。
SSA：用户搜索心理与行为分析

作者：[美] 罗森菲尔德（Louis Rose

何为站内搜索分析（SSA）？它如何帮助你挖掘用户搜索曰志，从中洞悉用户搜索心理和行为，从而有针对性地改善用户体验，提升网站价值？这些都可以从《SSA：用户搜索心理与行为分析》中找到答案。《SSA：用户搜索心理与行为分析》首先通过故事来说明SSA是如何使Vanguard集团起死回生的，简要介绍SSA并指导读者动手实践。其次，通过丰富的实例来介绍很多工具和方法，帮助读者着手分析用户查询数据，从中获得更多见解。最后，介绍一些非常实用的方法，用于改进搜索系统的性能和网站的导航结构、元数据及内容。《SSA：用户搜索心理与行为分析》是介绍站内搜索分析的重要资料，适合用户研究人员和设计师（比如信息架构师、内容战略家、交互设计师和知识管理者）阅读和参考。
社会网络分析

作者：Maksim Tsvetovat,Ale

本书以基于Python的网络分析包NetworkX作为社会网络分析工具，但不是一本NetworkX使用手册。作者将重点放在如何从庞大的社会网络分析学术积累中，挑选最精要与最实用的知识点，以帮助读者形成关于社会网络分析的知识谱系图。全书可以分为四部分。第1章和第2章是基础知识，主要介绍社会网络分析的背景信息与图论基础知识。第3~5章主要介绍如何分析社会网络，分别从个体与群体两个层面，介绍社会网络的主要测量指标与分析方法。其中第3章重点介绍社会网络节点层面的四个核心指标：程度中心性：哪些是明星人物？哪些是边缘者？程度中心性回答类似问题。这是最为人们理解的社会网络测量指标。以微博为例，程度中心性就是粉丝的数量，那些程度中心性高的人就是微博中的明星。亲近中心性：亲近中心性通过点与其他点的距离来测量。那些在社交网络中经常与人互动、人际关系颇好的人，比如公司中的八卦传播者，往往亲近中心性得分较高。居间中心性：节点的居间程度，表示一个网络中经过该点最短路径的数量。在网络中，节点的居间程度越大，那么它在节点相互之间的信息传播起到的作用也就越大。在两个社会网络之间的人，比如跨界者，往往拥有较高的居间中心性。特征向量中心性：那些在社交网络中沉默却拥有极大权力的人物，如《教父》中的主人翁柯里昂。社会网络研究者将他们称为“灰衣主教”。特征向量中心性就是找出他们的办法。基本原理是，一个有着高特征向量中心性的行动者，与他建立连接的很多行动者往往也被其他很多行动者所连接。在社交网络中，有这样一种人，很多明星与其做朋友，即使他沉默不语，也可能是一位重要的人物。社会网络分析不仅仅在节点层面测量。第4章、第5章介绍如何分析群体。其中，第4章主要介绍社群划分的基础知识：如何将庞大的社会网络划分为小的组块？如何利用社会网络中的结构洞牟利？如何进行三元组普查与分析？例如，如何通过岛屿方法逐步找出推特上埃及革命的成千上万条转发的核心人物？又如，如何评估埃及革命中一个人的信息传播能力？显然，如果你的朋友们相互信任，将比那种一个明星发言，粉丝们单纯收听的星形网络传播能力更强。第5章主要介绍二模网络与多模网络的基础知识。关系还会存在于不同类型的主体之间，比如公司雇佣员工、投资者购买公司股票、人们占有信息与资源等。这些关系称为二模关系。现实生活中的关系往往是二模或多模。比如在微博上，可以通过你的兴趣、地域、使用的标签来为你推荐新的朋友，或者基于你对一些公共事件的看法，将你划分到特定政治群体中，这些都是基于二模或多模网络的分析得出的。第6章是全书最精彩的部分，关注信息如何传播，初步展示分析动态社会网络发展的建模技巧。一条微博如何从一两个人关注突然成为流行用语？作者在实验中发现，当网络密度接近7%的时候，将从线性增长（每次增加一条连接）转化为病毒式扩散，也就是说，如果转发一条微博、加入一个网络社群等的人数比例达到7%，其他人将会在关键阶段马上跟进。这是一个推动脸谱走出哈佛大学的神奇数字。脸谱一步一步地跃迁，总是遵循一个规则——在一个社群里到达饱和点之后才移入一个更大的社群。作者通过手写Python算法，为读者打开动态社会网络与网络仿真的大门——我们如何用算法来模拟人类社会各类关系的变迁？有了自己亲手实践算法的经验，读者未来使用netlogo等网络仿真软件，将更加得心应手。对于初学者来说，第4~6章这三章有一定难度，需要同时理解社会科学与编程技巧两方面知识。第7章则简单明了，主要介绍获取网络数据的入门知识。如果希望深入了解，可以阅读作者推荐的相关资源。附录A介绍收集社会网络分析所需数据的传统方法、伦理准则与相关API。附录B介绍如何安装本书涉及的相关软件，如NetworkX、matplotlib等。总而言之，作为一本技术非常新颖的入门读物，本书通俗易懂，基于Python进行分析使得其灵活性变得更高。可以说，本书令学习者从一开始就具有上手实践的能力，除介绍网络数据获取技巧、网络抽样方法、网络在个体与群体两个层面的基本属性之外，还涉及目前日益热门的网络模拟方法，融合基础理论与算法于一身。简约却不简单，上升空间非常大！无论你是对社会网络感兴趣的大众读者，还是社会网络的专业研究者、开发者，相信本书都会在社会网络的理论与实践两方面给予启发！
信息论、推理与学习算法

作者：麦凯

本书是英国剑桥大学卡文迪许实验室的著名学者David J．C．MacKay博士总结多年教学经验和科研成果，于2003年推出的一部力作。本书作者不仅透彻地论述了传统信息论的内容和最新编码算法，而且以高度的学科驾驭能力，匠心独具地在一个统一框架下讨论了贝叶斯数据建模、蒙特卡罗方法、聚类算法、神经网络等属于机器学习和推理领域的主题，从而很好地将诸多学科的技术内涵融会贯通。本书注重理论与实际的结合，内容组织科学严谨，反映了多门学科的内在联系和发展趋势。同时，本书还包含了丰富的例题和近400道习题(其中许多习题还配有详细的解答)，便于教学或自学，适合作为信息科学与技术相关专业高年级本科生和研究生教材，对相关专业技术人员也不失为一本有益的参考书。...
Bayesian Reasoning and Machine Learning

作者：David Barber

Machine learning methods extract value from vast data sets quickly and with modest resources. They are established tools in a wide range of industrial applications, including search engines, DNA sequencing, stock market analysis, and robot locomotion, and their use is spreading rapidly. People who know the methods have their choice of rewarding jobs. This hands-on text opens these opportunities to computer science students with modest mathematical backgrounds. It is designed for final-year undergraduates and master's students with limited background in linear algebra and calculus. Comprehensive and coherent, it develops everything from basic reasoning to advanced techniques within the framework of graphical models. Students learn more than a menu of techniques, they develop analytical and problem-solving skills that equip them for the real world. Numerous examples and exercises, both computer based and theoretical, are included in every chapter. Resources for students and instructors, including a MATLAB toolbox, are available online.
删除

作者：[英] 维克托•迈尔-舍恩伯格（Vikt

《删除》讲述了遗忘的美德，为读者展现了大数据时代的取舍之道。《删除》从大数据时代信息取舍的目的和方法分别诠释了“被遗忘的权利”。维克托首先回溯了人类追寻记忆的过程，之后提出数字技术与全球网络正在瓦解我们天生的遗忘能力。对此，他考察了促进遗忘终止4大驱动力——数字化，廉价的存储器，易于提取，全球性访问。之后，他提出了当前数字化记忆的两大威胁——信息权力与时间，并给出了应对威胁的6大对策——数字化节制、保护信息隐私权、建设数字隐私权基础设施、调整人类的现有认知、打造良性的信息生态、完全语境化。最后，他提出了一种应对数字化记忆与信息安全的极有可能的关键对策——给信息设定存储期限。《删除》开启了一场 “互联网遗忘运动”，让我们始终记得遗忘的美德。这本书告诉我们，在大数据时代，面对海量信息人类该如何取舍，怎样才能构建一个积极而安全的未来。《删除》讲述了遗忘的美德，为读者展现了大数据时代的取舍之道。数字技术赋予了我们前所未有的权利，它也产生了意想不到的可怕后果。facebook上照片会被网络永远铭记，甚至会影响到一个人的职业发展；Google记得所有我们搜索过的信息和时间。数字王国记住了那些有时最好被遗忘的信息。删除，大数据取舍之道，就是把有意义的留下来，把无意义的去掉。只有理解了在大数据中，需要的是什么，以及如何判断这种需要，才能举一反三地明白到底为什么要去掉那些不需要的。维克托•迈尔-舍恩伯格，大数据时代的预言家，《科学》《自然》等著名学术期刊最推崇的互联网研究者之一，“大数据商业应用第一人”，拥有在哈佛大学、牛津大学、耶鲁大学和新加坡国立大学等多个互联网研究重镇任教的经历。中国社科院信息化研究中心秘书长姜奇平作序倾情推荐。北京大学新闻与传播学院副教授胡泳、中国科学院理论物理研究所研究员李淼、麻省理工学院教授大卫•克拉克、国际著名信息隐私权专家保罗•施瓦茨、斯坦福大学互联网与社会中心创办人劳伦斯•莱斯格、波士顿咨询公司高级副总裁菲利普•埃文斯联袂推荐《删除》一经出版，即获得美国政治科学协会颁发的“唐•普赖斯奖”，以及媒介环境学会的最高荣誉“马歇尔•麦克卢汉奖”，同时受到《连线》《自然》《华尔街日报》《纽约时报》等各大权威媒体广泛好评。《删除》洞见了“被遗忘的权利”，探索了大数据时代人类该如何构建积极而安全的未来。
大数据

作者：涂子沛

公布官员财产美国是怎么做的，美国能让少部人腐败起来吗，美国式上访是怎么回事，凭什么美国矿难那么少，全民医改美国做得到吗，美国总统大选有什么利器才能赢，下一轮全球洗牌我们世界工厂会被淘汰吗…… 除了上帝，任何人都必须用数据来说话。大数据浪潮，汹涌来袭，与互联网的发明一样，这绝不仅仅是信息技术领域的革命，更是在全球范围启动透明政府、加速企业创新、引领社会变革的利器。现代管理学之父德鲁克有言，预测未来最好的方法，就是去创造未来。而“大数据战略”，则是当下领航全球的先机。大数据，这一世界大潮的来龙去脉如何？数据技术变革，何以能推动政府信息公开、透明和社会公正？何以促发行政管理和商业管理革新，并创造无限商机？又何以既便利又危及我们每个人的生活？Google、百度之类搜索服务，何以会不再有立足之地？引领世界的数据帝国——美国和西欧，正在如何应对大数据时代？我们中国，又当如何作为？本书通过讲述美国半个多世纪信息开放、技术创新的历史，以别开生面的经典案例——奥巴马建设“前所未有的开放政府”的雄心、公共财政透明的曲折、《数据质量法》背后的隐情、全民医改法案的波澜、统一身份证的百年纠结、街头警察的创新传奇、美国矿难的悲情历史、商务智能的前世今生、数据开放运动的全球兴起，以及云计算、Facebook和推特等社交媒体、Web3.0与下一代互联网的未来图景等等，为您一一细解，数据创新给公民、政府、社会带来的种种挑战和变革。美国是全书主体，但又处处反观中国当下的现实。回望中国，胡适批评“差不多先生”，黄仁宇求索“数目字管理”，作者从太平洋对面看到中美两国的差距，深知中国缺少什么、需要什么，故将十多年观察、思索所得，淘洗成这一本书。史学大家、匹兹堡大学历史系荣誉讲座教授许倬云，有感于“老大哥”的影子，专门作序：“我们要对涂子沛先生致敬与致谢，因为他为华文世界提出一个重要的话题。” 哈佛大学商学院访问教授、全球顶尖的管理咨询大师达文波特，为中国政经两界提示智库建言：“无论是对中国政府，还是就中国的商业组织而言，《大数据》都是一本重要的书。”
这就是搜索引擎

作者：张俊林

搜索引擎作为互联网发展中至关重要的一种应用，已经成为互联网各个领域的制高点，其重要性不言而喻。搜索引擎领域也是互联网应用中不多见的以核心技术作为其命脉的领域，搜索引擎各个子系统是如何设计的？这成为广大技术人员和搜索引擎优化人员密切关注的内容。本书的最大特点是内容新颖全面而又通俗易懂。对于实际搜索引擎所涉及的各种核心技术都有全面细致的介绍，除了作为搜索系统核心的网络爬虫、索引系统、排序系统、链接分析及用户分析外，还包括网页反作弊、缓存管理、网页去重技术等实际搜索引擎必须关注的技术，同时用相当大的篇幅讲解了云计算与云存储的核心技术原理。另外，本书也密切关注搜索引擎发展的前沿技术：Google的咖啡因系统及Megastore等云计算新技术、百度的暗网抓取技术阿拉丁计划、内容农场作弊、机器学习排序等。诸多新技术在相关章节都有详细讲解，同时对于社会化搜索、实时搜索及情境搜索等搜索引擎的未来发展方向做了技术展望。为了增进读者的理解，全书大量引入形象的图片来讲解算法原理，相信读者会发现原来搜索引擎的核心技术理解起来比原先想象的要简单得多。
分析的力量

作者：张寅

没有经过甄别的信息不是有价值的信息，没有经过分析的数据不是有价值的数据。作者居中国经济分析一线20余年，具有全球视野，深谙中国特色与国情，本书在揭开中国信息分析行业神秘面纱的同时，提供了系统全面的信息分析方法，带领人们穿过信息表面的迷障，读懂信息，直抵本质与真相。
看穿一切数字的统计学

作者：[日]西内启

你也许相信“数字会说话”，小心！数字可能经过加工，目的就是巧妙地误导你的判断。你也许只看统计结果不看过程，小心！任何统计过程中都可能有你意想不到的疏漏。你面前的数据来自有公信力的机关，小心！你觉得完全可信的数据，也可能存在陷阱。《看穿一切的统计学》告诉你，海量数据中，哪些数字能帮你做出准确判断，哪些会让你走入误区？《看穿一切数字的统计学》，一点儿也不无聊的统计学入门书，不用艰深的数学式，就能理解统计学的基本概念，用故事点出主题，让你学得透彻，看得过瘾。学会统计学，看穿一切数字背后的真相！
社交网站的数据挖掘与分析

作者：Matthew A. Russell

Facebook、Twitter和LinkedIn产生了大量宝贵的社交数据，但是你怎样才能找出谁通过社交媒介正在进行联系?他们在讨论些什么?或者他们在哪儿?这本简洁而且具有可操作性的书将揭示如何回答这些问题甚至更多的问题。你将学到如何组合社交网络数据、分析技术，如何通过可视化帮助你找到你一直在社交世界中寻找的内容，以及你闻所未闻的有用信息。每个独立的章节介绍了在社交网络的不同领域挖掘数据的技术，这些领域包括博客和电子邮件。你所需要具备的就是一定的编程经验和学习基本的Python工具的意愿。 •获得对社交网络世界的直观认识 •使用GitHub上灵活的脚本来获取从诸如Twitter、Facebook和LinkedIn之类的社交网络API中的数据 •学习如何应用便捷的Python工具来交叉分析你所收集的数据 •通过XHTML朋友圈探讨基于微格式的社交联系 •应用诸如TF-IDF、余弦相似性、搭配分析、文档摘要、派系检测之类的先进挖掘技术 •通过基于HTML5和JavaScript工具包的网络技术建立交互式可视化
深入浅出统计学

作者：Dawn Griffiths

样章试读请到下面的链接下载：目录 http://goo.gl/tlCLf 序言 http://goo.gl/65x6e 第一章 http://goo.gl/WTnC9 第二章 http://goo.gl/5WUhT 若下载遇到问题，请邮件联系：lispython@gmail.com。谢谢！《深入浅出统计学》具有深入浅出系列的一贯特色，提供最符合直觉的理解方式，让统计理论的学习既有趣又自然。从应对考试到解决实际问题，无论你是学生还是数据分析师，都能从中受益。本书涵盖的知识点包括：信息可视化、概率计算、几何分布、二项分布及泊松分布、正态分布、统计抽样、置信区间的构建、假设检验、卡方分布、相关与回归等等，完整涵盖AP 考试范围。本书运用充满互动性的真实世界情节，教给你有关这门学科的所有基础，为这个枯燥的领域带来鲜活的乐趣，不仅让你充分掌握统计学的要义，更会告诉你如何将统计理论应用到日常生活中。
信息检索导论

作者：Christopher D.Mannin

封面图片为英国伯明翰塞尔福瑞吉百货大楼，其极具线条感的轮廓外型优美，犹如水波的流动。其外表悬挂了1.5万个铝碟，创造出一种极具现代气息的纹理装饰效果，有如夜空下水流的波光粼粼，闪烁于月光之下，使建筑的商业氛围表现到极致。设计该建筑的英国“未来系统建筑事物所”，将商场内部围合成一个顶部采光的中庭，配以交叉的自动扶梯，使购物环境呈现出一种凝聚的向心力和商业广告的展示效应。作为英国第二商业城市伯明翰的建筑地标，人们称该建筑为“未来的百货商店”。因其设计构思的前卫性，该建筑获得2004年英国皇家建筑学会的“建筑设计奖”和2004年“英国皇家工艺美术委员会奖”等多个奖项。本书从计算机科学领域的角度出发，介绍了信息检索的基础知识，并对当前信息检索的发展做了回顾，重点介绍了搜索引擎的核心技术，如文档分类和文档聚类问题，以及机器学习和数值计算方法。书中所有重要的思想都用示例进行了解释，生动形象，引人入胜，实现了理论与实战的完美结合。本书的三位作者均是信息检索领域的顶级专家，两位来自学术教育界，一位来自硅谷业界，使本书既具备深厚的理论基础，又代表了尖端科技水准。因此，该书甫一出版，即被奉为该领域的权威著作，备受瞩目。目前已被众多世界名校采用为信息检索课程的教材。