数据挖掘导论读书笔记01

数据挖掘是在大型数据存储库中，自动发现有用信息的过程。

解决的问题（我理解成能取代人工识别的方面）：

数据挖掘通常分为预测任务和描述任务两类。本书主要内容为介绍聚类分析，预测建模，关联分析异常检测。

数据集是数据对象的集合，对象和“面向对象”里的对象意思差不多，用来描述对象的属性类型如下：

属性类型

数据集的一般特性：

三种数据类型：

记录数据：分为 事物数据 （统日志，逐条记录每个属性，简单罗列）， 数据矩阵 （多维空间中的向量）和 稀疏矩阵（特殊的数据矩阵，通常只关注非零值且属性类型相同）。
基于图形的数据：通常有两种情况， 图形捕获事物间的关系 （如各种关系图）和 具有图形对象的数据 （如分子结构图）。
有序数据：带有时间或空间序列的数据，通常要考虑时间和空间的自相关性。

为了让数据更适合挖掘需要进行预处理，粗略地说分为两类：创建属性和改变属性。

从给的例子看，有一种减小分辨率，增加稳定性和可计算性的感觉。提到了将会在第三章出现的OLAP（Online Analytical Processing），比较适合用压缩特定属性不同值个数的方式进行聚集。

分为简单随机抽样和分层抽样。

选择合适的样本容量

随着维度的增加，数据对象在高维空间中的分布越来越稀疏，难以进行分类和聚类等操作，所以要进行维归约。

方法: PCA(Principal Components Analytical), SVD(Singular Value Discomposition)

特征选择的理想方法是，将所有可能的特征子集作为感兴趣的特征输入，然后选取产生最好结果的子集。但是绝大部分时候我们只能尝试其中的一部分子集，有三种方法来选择：嵌入，过滤和包装。

通常可以由原来的属性集构建新的属性集，更有效地捕获数据中的信息。可是，通常的特征提取技术都是高度针对各个领域的，所以重点一般是开发新的特征和特征提取方法。

这里可以用傅立叶变换将数据映射到新的空间，傅立叶变换的作用是展示属性与频率之间的关系（由属性与时间关系转化而来）。

第一章 & 第二章