《Python数据挖掘：概念、方法与实践》—

本节书摘来自华章社区《Python数据挖掘：概念、方法与实践》一书中的第1章，第1.5节小结，作者[美] 梅甘·斯夸尔（Megan Squire），更多章节内容可以访问云栖社区“华章社区”公众号查看

1.5　小结

在本章中，我们学习了将数据挖掘工具箱扩展到大师级别所需要做的工作。首先，我们从作为数据库知识发现（KDD）过程一部分的数据挖掘历史开始，对该领域进行了全面的介绍。还比较了数据挖掘其他类似的领域，如数据科学、机器学习和大数据等。

接下来，概述了KDD过程中大部分专家认为最重要的工具和技术，特别关注挖掘和分析步骤中最频繁使用的技术。为了真正精通数据挖掘，重要的是要关注和简单的教科书示例不同的问题。因此，我们将致力于更独特的数据挖掘技术，如生成摘要和寻找离群值，并关注更加不同寻常的数据类型，如文本和网络。

在本章的最后，我们组合了一个健全的数据挖掘系统。我们的工作空间以强大的全功能编程语言Python及其许多实用数据挖掘程序包（如NTLK、Gensim、Numpy、Networkx和Scikit-learn）为中心，辅之以易于使用的免费数据库MySQL。

现在，通过以上对软件包的讨论使我们想到：你是否对哪些程序包最经常一起使用感到疑惑？是较为常见的NTLK和Networkx组合，还是相对不常见的程序包搭配？在下一章中，我们将解决这一类问题。在第2章中，我们将学习如何生成经常发现的配对、三元组、四元组等的列表，然后根据找出的模式作出预测。