博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
《Python数据挖掘:概念、方法与实践》——1.5节小结
阅读量:6439 次
发布时间:2019-06-23

本文共 630 字,大约阅读时间需要 2 分钟。

本节书摘来自华章社区《Python数据挖掘:概念、方法与实践》一书中的第1章,第1.5节小结,作者[美] 梅甘·斯夸尔(Megan Squire),更多章节内容可以访问云栖社区“华章社区”公众号查看

1.5 小结

在本章中,我们学习了将数据挖掘工具箱扩展到大师级别所需要做的工作。首先,我们从作为数据库知识发现(KDD)过程一部分的数据挖掘历史开始,对该领域进行了全面的介绍。还比较了数据挖掘其他类似的领域,如数据科学、机器学习和大数据等。
接下来,概述了KDD过程中大部分专家认为最重要的工具和技术,特别关注挖掘和分析步骤中最频繁使用的技术。为了真正精通数据挖掘,重要的是要关注和简单的教科书示例不同的问题。因此,我们将致力于更独特的数据挖掘技术,如生成摘要和寻找离群值,并关注更加不同寻常的数据类型,如文本和网络。
在本章的最后,我们组合了一个健全的数据挖掘系统。我们的工作空间以强大的全功能编程语言Python及其许多实用数据挖掘程序包(如NTLK、Gensim、Numpy、Networkx和Scikit-learn)为中心,辅之以易于使用的免费数据库MySQL。
现在,通过以上对软件包的讨论使我们想到:你是否对哪些程序包最经常一起使用感到疑惑?是较为常见的NTLK和Networkx组合,还是相对不常见的程序包搭配?在下一章中,我们将解决这一类问题。在第2章中,我们将学习如何生成经常发现的配对、三元组、四元组等的列表,然后根据找出的模式作出预测。

转载地址:http://yjuwo.baihongyu.com/

你可能感兴趣的文章
foreman源NO_PUBKEY 6F8600B9563278F6
查看>>
揭秘:蚂蚁金服bPaaS究竟是什么?
查看>>
mongo数据库单节点搭建
查看>>
WPF模糊和阴影效果
查看>>
增加关系型数据库驱动配置同步任务
查看>>
别用这种方式聊天,你都不知道自己是怎么聊死的
查看>>
中国香港地区 DDoS- botnet 态势分析
查看>>
另一个角度的架构师
查看>>
SparseArray<E>详解
查看>>
Eclipse-Java代码规范和质量检查插件-PMD
查看>>
阿里专家分享:企业级大数据轻量云实践
查看>>
阿里财报:云计算年度营收133亿,季度营收连续12个季度翻番
查看>>
人工智能化发展已经到了哪一步?
查看>>
php实现上传图片保存到数据库的方法
查看>>
安卓应用安全指南 5.4.3 通过 HTTPS 的通信 高级话题
查看>>
针对CMS中的tag标签理解
查看>>
AR头显要上天!欧洲太空总署或用HoloLens维修太空站
查看>>
沃尔玛建立自家的人工智能网络,抗衡竞争对手亚马逊
查看>>
Mysql备份与还原及优化方法
查看>>
linux常用命令和选项
查看>>