欢迎来到相识电子书!

标签:数据挖掘

  • 机器学习

    作者:周志华

    机器学习是计算机科学与人工智能的重要分支领域. 本书作为该领域的入门教材,在内容上尽可能涵盖机器学习基础知识的各方面。 为了使尽可能多的读者通过本书对机器学习有所了解, 作者试图尽可能少地使用数学知识. 然而, 少量的概率、统计、代数、优化、逻辑知识似乎不可避免. 因此, 本书更适合大学三年级以上的理工科本科生和研究生, 以及具有类似背景的对机器学 习感兴趣的人士. 为方便读者, 本书附录给出了一些相关数学基础知识简介. 全书共16 章,大致分为3 个部分:第1 部分(第1~3 章)介绍机器学习的基础知识;第2 部分(第4~10 章)讨论一些经典而常用的机器学习方法(决策树、神经网络、支持向量机、贝叶斯分类器、集成学习、聚类、降维与度量学习);第3 部分(第11~16 章)为进阶知识,内容涉及特征选择与稀疏学习、计算学习理论、半监督学习、概率图模型、规则学习以及强化学习等.前3章之外的后续各章均相对独立, 读者可根据自己的兴趣和时间情况选择使用. 根据课时情况, 一个学期的本科生课程可考虑讲授前9章或前10章; 研究生课程则不妨使用全书. 书中除第1章外, 每章都给出了十道习题. 有的习题是帮助读者巩固本章学习, 有的是为了引导读者扩展相关知识. 一学期的一般课程可使用这些习题, 再辅以两到三个针对具体数据集的大作业. 带星号的习题则有相当难度, 有些并无现成答案, 谨供富有进取心的读者启发思考. 本书可作为高等院校计算机、自动化及相关专业的本科生或研究生教材,也可供对机器学习感兴趣的研究人员和工程技术人员阅读参考。
  • 超级数字天才

    作者:伊恩·艾瑞斯

    有人在葡萄酒酿造出之前就能知道酒的品质好坏 有人在看到运动员比赛之前就能判断出其水平 有人在购买机票之前就能知道机票价格会涨还是跌他们有特异功能吗? 交友网站能测出什么样的异性适合你 亚马逊可以告诉你“和你类似的人还喜欢”的东西谷歌可以根据你的搜索把你最想看到的东西排列到最前面 他们如何做到的呢? 意到了吗?数据分析正在以我们从未想象过的方式影响着生活。本书中,作者向我们展示了当今最优秀、最出色的组织正在以闪电般的速度分析规模庞大的数据,以便更加准确地掌握人类的行为。这些人就是“超级数字天才”。从互联网站如谷歌、亚马逊能比你自己更了解自己的爱好,到医生的诊断和孩子的教育,再到政府、法院,这种新型的决策者逐渐掌控了世界。艾瑞斯以生动、轻松的方式向我们展示: 超级数字分析在商业、医院、法院等社会各个角落的崛起。 超级决策与经验直觉决策的对峙 超级数字分析崛起的原因 哪些人会因此受益,哪些人会因此受损 未来将属于谁 仅仅依靠直觉决策的时代已经一去不复返。任何想要走在时代前列的商业人士、消费者、学生都应该阅读这本书。
  • 社会媒体挖掘

    作者:扎法拉尼 (Reza Zafarani)

    本书集成了近年来社会媒体、社会网络分析以及数据挖掘的前沿成果,为学生、从业者、研究人员和项目经理提供了一个方便的平台,以便理解社会媒体挖掘的基础知识和潜能。本书介绍了社会媒体数据的问题,并阐述了网络分析和数据挖掘的基本概念、新问题以及有效的算法。
  • 鲜活的数据

    作者:[美] Nathan Yau

    在生活中,数据几乎无处不在,任我们取用。然而,同样的数据给人的感觉可能会千差万别:或冰冷枯燥,让人望而生畏、百思不解其意;或生动有趣,让人一目了然、豁然开朗。为了达到后一种效果,我们需要采用一种特别的方式来展示数据,来解释、分析和应用它。这就是数据可视化技术。Nath an Yau是这一创新领域的先锋。在本书中,他根据数据可视化的工作流程,先后介绍了如何获取数据,将数据格式化,用可视化工具(如R)生成图表,以及在图形编辑软件(如Illustrator)中修改以使图表达到最佳效果。本书介绍了数十种方法(如柱形图、饼图、折线图和散点图等),以创造性的视觉方式生动讲述了有关数据的故事。
  • Mining the Social Web

    作者:Matthew A. Russell

    Popular social networks such as Facebook, Twitter, and LinkedIn generate a tremendous amount of valuable social data. Who's talking to whom? What are they talking about? How often are they talking? Where are they located? This concise and practical book shows you how to answer these types of questions and more. Each chapter presents a soup-to-nuts approach that combines popular social web data, analysis techniques, and visualization to help you find the needles in the social haystack you've been looking for -- and some you didn't know were there. With Mining the Social Web, intermediate-to-advanced Python programmers will learn how to collect and analyze social data in way that lends itself to hacking as well as more industrial-strength analysis. The book is highly readable from cover to cover and tells a coherent story, but you can go straight to chapters of interest if you want to focus on a specific topic. Get a concise and straightforward synopsis of the social web landscape so you know which 20% of the space to spend 80% of your time on Use easily adaptable scripts hosted on GitHub to harvest data from popular social network APIs including Twitter, Facebook, and LinkedIn Learn how to slice and dice social web data with easy-to-use Python tools, and apply more advanced mining techniques such as TF-IDF, cosine similarity, collocation analysis, document summarization, and clique detection Build interactive visualizations with easily adaptable web technologies built upon HTML5 and JavaScript toolkits This book is still in progress, but you can get going on this technology through our Rough Cuts edition, which lets you read the manuscript as it's being written, either online or via PDF. via http://oreilly.com/catalog/9781449394844/ Amazon: http://www.amazon.com/Mining-Social-Web-Finding-Haystack/dp/1449388345/
  • 统计学方法与数据分析引论(上下)

    作者:[美] R.L.奥特(R.Lyamn O

    本书据Duxbury Press第5版译出。内容分为8个部分,共20章,分上下两册。各章均有大量习题。作者使用实例来引入主题,并把统计概念和实际问题联系在一起进行讲解,介绍了统计数据的收集和分析过程,讨论了如何解释数据分析的结果,并专门讲述了如何写数据分析报告。
  • 统计学(第三版)

    作者:吴喜之 编著

    《统计学:从数据到结论(第3版)》内容简介:不知读者们是否意识到,统计已经渗入到人们的社会、生活、工作等各个领域。每天新闻媒介报道的各个方面都离不开各种统计数据和各种分析与预测。人们可能对于这些统计内容觉得习以为常,也可能会有一些好奇或神秘感。由于国情不同,统计的地位与人们对统计的看法也不同。在发达国家,一般民众觉得统计学和数学类似,是一门高不可攀但极易找到满意工作的学问。在中国,又有一些人认为统计就是处理政府报表的职业。但自从中国向世界开放之后,越来越明确的一点是,没有什么学科或领域能够真正离开统计。
  • Thinking with Data

    作者:Max Shron

  • Python自然语言处理

    作者:(英)伯德,(英)克莱因,(美)洛普

    《Python自然语言处理(影印版)》提供了非常易学的自然语言处理入门介绍,该领域涵盖从文本和电子邮件预测过滤,到自动总结和翻译等多种语言处理技术。在《Python自然语言处理(影印版)》中,你将学会编写Python程序处理大量非结构化文本。你还将通过使用综合语言数据结构访问含有丰富注释的数据集,理解用于分析书面通信内容和结构的主要算法。 《Python自然语言处理》准备了充足的示例和练习,可以帮助你: 从非结构化文本中抽取信息,甚至猜测主题或识别“命名实体”; 分析文本语言结构,包括解析和语义分析; 访问流行的语言学数据库,包括WordNet和树库(treebank); 从多种语言学和人工智能领域中提取的整合技巧。 《Python自然语言处理(影印版)》将帮助你学习运用Python编程语言和自然语言工具包(NLTK)获得实用的自然语言处理技能。如果对于开发Web应用、分析多语言新闻源或记录濒危语言感兴趣——即便只是想从程序员视角观察人类语言如何运作,你将发现《Python自然语言处理》是一本令人着迷且极为有用的好书。
  • Data Mining

    作者:Jiawei Han,Micheline

    The increasing volume of data in modern business and science calls for more complex and sophisticated tools. Although advances in data mining technology have made extensive data collection much easier, it's still always evolving and there is a constant need for new techniques and tools that can help us transform this data into useful information and knowledge. Since the previous edition's publication, great advances have been made in the field of data mining. Not only does the third of edition of Data Mining: Concepts and Techniques continue the tradition of equipping you with an understanding and application of the theory and practice of discovering patterns hidden in large data sets, it also focuses on new, important topics in the field: data warehouses and data cube technology, mining stream, mining social networks, and mining spatial, multimedia and other complex data. Each chapter is a stand-alone guide to a critical topic, presenting proven algorithms and sound implementations ready to be used directly or with strategic modification against live data. This is the resource you need if you want to apply today's most powerful data mining techniques to meet real business challenges. * Presents dozens of algorithms and implementation examples, all in pseudo-code and suitable for use in real-world, large-scale data mining projects. * Addresses advanced topics such as mining object-relational databases, spatial databases, multimedia databases, time-series databases, text databases, the World Wide Web, and applications in several fields. *Provides a comprehensive, practical look at the concepts and techniques you need to get the most out of your data
  • Applied Predictive Modeling

    作者:Max Kuhn,Kjell Johns

    This text is intended for a broad audience as both an introduction to predictive models as well as a guide to applying them. Non-mathematical readers will appreciate the intuitive explanations of the techniques while an emphasis on problem-solving with real data across a wide variety of applications will aid practitioners who wish to extend their expertise. Readers should have knowledge of basic statistical ideas, such as correlation and linear regression analysis. While the text is biased against complex equations, a mathematical background is needed for advanced topics. Dr. Kuhn is a Director of Non-Clinical Statistics at Pfizer Global R&D in Groton Connecticut. He has been applying predictive models in the pharmaceutical and diagnostic industries for over 15 years and is the author of a number of R packages. Dr. Johnson has more than a decade of statistical consulting and predictive modeling experience in pharmaceutical research and development. He is a co-founder of Arbor Analytics, a firm specializing in predictive modeling and is a former Director of Statistics at Pfizer Global R&D. His scholarly work centers on the application and development of statistical methodology and learning algorithms.
  • SPSS统计分析基础教程

    作者:张文彤,邝春伟

    《高等学校教材:SPSS统计分析基础教程(第2版)》采用的IBM SPSS Statistics 20中文版,以真实案例贯穿全书,从统计分析实战的角度出发详细介绍SPSS的界面操作、数据管理、统计图表制作、统计描述和常用单因素统计分析方法的原理与实际操作,并结合SPSS的强大功能进行很好地扩展。书中还提供医疗、经济、市场研究等各行业的综合案例,完全从实际案例出发讲解各类方法的综合运用,以更好地协助读者提高实战能力。 《高等学校教材:SPSS统计分析基础教程(第2版)》对第1版内容进行了全面改写,以一种全新的实战案例风格出现,是一本难得的统计理论与SPSS操作相结合的参考书。 《高等学校教材:SPSS统计分析基础教程(第2版)》可作为统计学、社会学、教育学等专业本科生和研究生课程教材,也可作为各行业中非统计专业背景、需要使用统计方法的人员以及希望从头学习SPSS软件使用方法的人员的参考书。
  • 实验设计与分析

    作者:(美)蒙哥马利(Montgomery,D

    本书作为实验设计与分析领域的名著, 是作者在亚利桑那州立大学、华盛顿大学和佐治亚理工学院三所大学近40年实验设计教学经验的基础上编写的. 全书内容广泛, 实例丰富,包括简单比较试验、析因设计、分式析因第1章设计、拟合回归模型、响应曲面方法和设计、稳健参数设计和过程稳健性研究、含随机因子的实验、嵌套设计和裂区设计等. 本书可作为自然科学研究人员、工程技术人员、管理人员进行科学实验设计与分析的参考书, 也可作为农林类、医学类、生物类、统计类的教师和高年级本科生和研究生的教学参考用书.
  • Machine Learning

    作者:Kevin P. Murphy

    Today's Web-enabled deluge of electronic data calls for automated methods of data analysis. Machine learning provides these, developing methods that can automatically detect patterns in data and then use the uncovered patterns to predict future data. This textbook offers a comprehensive and self-contained introduction to the field of machine learning, a unified, probabilistic approach. The coverage combines breadth and depth, offering necessary background material on such topics as probability, optimization, and linear algebra as well as discussion of recent developments in the field, including conditional random fields, L1 regularization, and deep learning. The book is written in an informal, accessible style, complete with pseudo-code for the most important algorithms. All topics are copiously illustrated with color images and worked examples drawn from such application domains as biology, text processing, computer vision, and robotics. Rather than providing a cookbook of different heuristic methods, the book stresses a principled model-based approach, often using the language of graphical models to specify models in a concise and intuitive way. Almost all the models described have been implemented in a MATLAB software package--PMTK (probabilistic modeling toolkit)--that is freely available online. The book is suitable for upper-level undergraduates with an introductory-level college math background and beginning graduate students.
  • 正在发生的未来

    作者:刘德寰,刘向清,崔凯,荆婧

    正在发生的未来——手机人的族群与趋势 基于独家真实数据盘点2011年中国手机业发展状况,基于独到研究方法解析手机人族群,基于独特观察视角透视移动互联网发展趋势。关注移动互联网,关注手机行业的你不容错过! 本书作者刘德寰教授及其团队通过独家采集的大量真实数据,在严格、系统的建模与数据分析的基础上提出“手机人族群”的概念,并将其放置于中国移动互联网产业的大背景下,通过视角独特的历程扩散、深描等严谨的研究方法分析这一族群的生态与变化趋势,从而深入剖析以手机为主要载体的移动互联网的迅速发展对于文化创意产业的格局以及现代人生活方式、消费方式等方面的深刻影响。 全书共分为两篇,第一篇“大互联网时代的手机人深描”,以手机人2011全景大调研为蓝本,深度阐释趋势、族群与移动互联网生活之间的关系,定义了“手机人族群”概念,并且通过行为方式对这一族群进行了18类细分,对2011年中国手机行业进行了9大盘点;第二篇“移动互联网产业透视”则以以宏观产业为背景,从国内外的产业趋势描绘的移动互联网发展蓝图。 本书是刘德寰教授及其团队所做的大量数据调查与统计分析工作的成果结晶,以真实数据说话,深刻剖析移动互联网发展现状与趋势,用视角独特、数据可信、观点新颖、内容严谨来形容实不为过。对于关注或从事移动互联网行业的人来讲,本书的内容具备很强的参考价值。
  • 统计学

    作者:[美] Gudmund R. Ivers

    统计学:基本概念和方法,ISBN:9787040078916,作者:(美)[G.R.埃维森]Gudmund R.Iversen,(美)[M.格根]Mary Gergen著;吴喜之等译
  • 机器学习实战

    作者:Peter Harrington

    机器学习是人工智能研究领域中一个极其重要的研究方向,在现今的大数据时代背景下,捕获数据并从中萃取有价值的信息或模式,成为各行业求生存、谋发展的决定性手段,这使得这一过去为分析师和数学家所专属的研究领域越来越为人们所瞩目。 本书第一部分主要介绍机器学习基础,以及如何利用算法进行分类,并逐步介绍了多种经典的监督学习算法,如k近邻算法、朴素贝叶斯算法、Logistic回归算法、支持向量机、AdaBoost集成方法、基于树的回归算法和分类回归树(CART)算法等。第三部分则重点介绍无监督学习及其一些主要算法:k均值聚类算法、Apriori算法、FP-Growth算法。第四部分介绍了机器学习算法的一些附属工具。 全书通过精心编排的实例,切入日常工作任务,摒弃学术化语言,利用高效的可复用Python代码来阐释如何处理统计数据,进行数据分析及可视化。通过各种实例,读者可从中学会机器学习的核心算法,并能将其运用于一些策略性任务中,如分类、预测、推荐。另外,还可用它们来实现一些更高级的功能,如汇总和简化等。
  • SAS应用统计分析

    作者:罗纳德·科迪(Ronald P.Cody

    《SAS应用统计分析(第5版)》内容简介:随着计算机应用的发展,在统计学领域,先后出现了数百种各具特色的统计软件,其中SAS(Statistics Analysis System)是目前国际上最有影响的一种软件,功能非常强大,广泛应用经济管理、商业金融、医学、教育、心理、生物、地理等各个领域,具有重要的应用价值。据报道,全世界500强企业有百分之八十在使用SAS,它已被誉为统计分析的标准软件。 本书以帮助读者实现SAS入门和学会应用SAS软件解决实际问题为目的,表述简单明了,逻辑结构清晰,内容系统完整,用丰富的实例说明了运用SAS软件进行常见的统计分析的程序和步骤,以及对结果的解释与报告。全书共分为20章,内容如下:第1章介绍SAS基础,第2-10章是用SAS来实现常见的统计分析过程;第11章描述了SAS运用于心理测量学分析的例子,第12章介绍INPUT语句,第13-16章讲解如何用SAS来读取和处理数据,第17-18章介绍SAS函数,第19-20章详细描述了SAS程序的范例。 本书主要针对非计算机专业和非数理统计专业从事数据处理与分析的人员,力求说明统计方法在求解实际问题中的应用,为他们提供应用SAS软件进行数据统计分析的指导。它适用于应用领域的研究人员、SAS程序的初学者,以及想进一步学习SAS程序的读者。 点击链接进入: 心理测验与评估学习指南(第6版) 心理统计导论(第9版) 心理统计学习指南(双语版) 如何成为质性研究专家(英文版)(第3版) 心理测验:历史、原理及应用(第5版)(英文版) 高等学校教材•社会研究方法:定性研究与定量研究(第6版)(英文版) 心理学实验的设计与报告(第2版)(中文版) 心理学研究方法(第6版) 心理学研究方法(第7版) APA出版手册(简明版)(第5版) SAS应用统计分析(第5版) 行为研究纲要:方法与数据分析(英文注释版)(第3版)
  • 数据可视化之美

    作者:Julie Steele,Noah Il

    《数据可视化之美》内容简介:可视化是数据描述的图形表示,旨在一目了然地揭示数据中的复杂信息。可视化的典型如纽约地铁图和人脑图。成功的可视化的美丽之处既在于其艺术设计,也在于其通过对细节的优雅展示,能够有效地产生对数据的洞察和新的理解。 在《数据可视化之美》中,20多位可视化专家包括艺术家、设计师、评论家、科学家、分析师、统计学家等,展示了他们如何在各自的学科领域内开展项目。他们共同展示了可视化所能实现的功能以及如何使用它来改变世界。在《数据可视化之美》中,你将: 通过简单的可视化实践探索讲故事的重要性。 了解颜色如何传达我们尚未充分意识到而大脑已经识别出的信息。 发现我们购买的书籍和我们的交际圈如何揭示内心的自我。 通过对民航交通的可视化探索识别航空旅行的混乱的一种方法。 揭秘研究人员如何调查未知问题,包括从最初的草图到发表的论文。 点击链接进入o'reilly之美系列: 《代码之美》 《项目管理之美》 《架构之美》 《团队之美》 《测试之美》 《数据之美》 《安全之美》 《数据可视化之美》