数据挖掘是在大型数据存储库中, 自动 发现 有用 信息的过程。
解决的问题(我理解成能取代人工识别的方面):
- 可伸缩:根据数据的量级采取应对处理,例如当要处理的数据不能放入内存中,要采取非内存算法
- 高维性:需要合适的降维算法
- 异种数据和复杂数据:面对复杂的数据对象时,如html文档
数据挖掘通常分为预测任务和描述任务两类。 本书主要内容为介绍聚类分析,预测建模,关联分析异常检测。
数据类型
数据集是数据对象的集合,对象和“面向对象”里的对象意思差不多,用来描述对象的属性类型如下:
数据集的一般特性:
- 维度:维度往往是数据集中对象具有的属性数目。通常要对高位数据降维处理。
- 稀疏性:可以采取特定的方法优化稀疏的数据的存储与处理方法。
- 分辨率:不同的时间或空间的分辨率往往得到不同的数据处理结果。
三种数据类型:
- 记录数据:分为 事物数据 (统日志,逐条记录每个属性,简单罗列), 数据矩阵 (多维空间中的向量)和 稀疏矩阵(特殊的数据矩阵,通常只关注非零值且属性类型相同)。
- 基于图形的数据:通常有两种情况, 图形捕获事物间的关系 (如各种关系图)和 具有图形对象的数据 (如分子结构图)。
- 有序数据:带有时间或空间序列的数据,通常要考虑时间和空间的自相关性。
数据预处理
为了让数据更适合挖掘需要进行预处理,粗略地说分为两类:创建属性和改变属性。
聚集
从给的例子看,有一种减小分辨率,增加稳定性和可计算性的感觉。提到了将会在第三章出现的OLAP(Online Analytical Processing),比较适合用压缩特定属性不同值个数的方式进行聚集。
抽样
分为简单随机抽样和分层抽样。
维归约
随着维度的增加,数据对象在高维空间中的分布越来越稀疏,难以进行分类和聚类等操作,所以要进行维归约。
方法: PCA(Principal Components Analytical), SVD(Singular Value Discomposition)
特征选择的理想方法是,将所有可能的特征子集作为感兴趣的特征输入,然后选取产生最好结果的子集。但是绝大部分时候我们只能尝试其中的一部分子集,有三种方法来选择:嵌入,过滤和包装。
特征创建
通常可以由原来的属性集构建新的属性集,更有效地捕获数据中的信息。 可是,通常的特征提取技术都是高度针对各个领域的,所以重点一般是开发新的特征和特征提取方法。
这里可以用傅立叶变换将数据映射到新的空间,傅立叶变换的作用是展示属性与频率之间的关系(由属性与时间关系转化而来)。