Data mining

来自开放百科 - 灰狐
(版本间的差异)
跳转到: 导航, 搜索
(Allen移动Data Mining页面至Data mining)
(链接)
 
(未显示1个用户的24个中间版本)
第4行: 第4行:
  
 
数据挖掘是从大量数据中寻找其规律的技术,主要有数据准备、规律寻找和规律表示三个步骤。数据准备是从各种数据源中选取和集成用于数据挖掘的数据;规律寻找是用某种方法将数据中的规律找出来;规律表示是用尽可能符合用户习惯的方式(如可视化)将找出的数据呈现出来。
 
数据挖掘是从大量数据中寻找其规律的技术,主要有数据准备、规律寻找和规律表示三个步骤。数据准备是从各种数据源中选取和集成用于数据挖掘的数据;规律寻找是用某种方法将数据中的规律找出来;规律表示是用尽可能符合用户习惯的方式(如可视化)将找出的数据呈现出来。
 +
 +
==简介==
 +
[[machine learning|机器学习]]和[[database|数据库]]是数据挖掘的两大支撑。
 +
 +
==理论==
  
 
==项目==
 
==项目==
 +
*[[Orange]]
 +
*[[R Project]]
 +
*[[Apache Kylin]]
 
*[[weka]]
 
*[[weka]]
 
*[[QuickMiner]]
 
*[[QuickMiner]]
 +
*[[ScalaNLP]]
 +
*商业软件:[[SPSS]]
 +
 +
==工作流==
 +
一个通用数据挖掘工作流包含以下步骤:
 +
*Loading the data.
 +
*Preprocessing, analyzing, and filtering the input data.
 +
*Discovering patterns, affinities, clusters, and classes.
 +
*Selecting the model features and the appropriate machine learning algorithm(s).
 +
*Refining and validating the model.
 +
*Improving the computational performance of the implementation.
 +
以上信息来源《Scala for Machine Learning》
 +
 +
==数据预处理==
 +
*[[Pentaho]] [http://events.pentaho.com/data-prep-starter-kit.html Data Preparation Starter Ki]
 +
*[https://www.gartner.com/doc/reprints?id=1-3GQGPV9&ct=160901&st=sb Market Guide for Self-Service Data Preparation]
 +
*[http://docs.huihoo.com/data-science/Imporving-Data-Preparation-for-Business-Analytics-Best-Practices-Report-Q3-2016.pdf Improving Data Preparation for Business Analytics]
  
==10种分析方法==
+
==分析方法==
 
数据挖掘的十种分析方法:
 
数据挖掘的十种分析方法:
 
*记忆基础推理法
 
*记忆基础推理法
第26行: 第51行:
 
*[http://docs.huihoo.com/data-mining/concepts-and-techniques/3rd/slides/ Data Mining: Concepts and Techniques, 3rd ed 幻灯片PPT]
 
*[http://docs.huihoo.com/data-mining/concepts-and-techniques/3rd/slides/ Data Mining: Concepts and Techniques, 3rd ed 幻灯片PPT]
 
*[http://docs.huihoo.com/data-mining/concepts-and-techniques/2nd/slides/ Data Mining: Concepts and Techniques, 2nd ed 幻灯片PPT]
 
*[http://docs.huihoo.com/data-mining/concepts-and-techniques/2nd/slides/ Data Mining: Concepts and Techniques, 2nd ed 幻灯片PPT]
 +
*[http://docs.huihoo.com/oracle/openworld/2014/CON8596-Predictive-Analytics-with-Oracle-Data-Mining.pptx Predictive Analytics with Oracle Data Mining]
  
 
==专题==
 
==专题==
第34行: 第60行:
 
*[http://www.ibm.com/developerworks/cn/data/library/ba/ba-predictive-analytics4/index.html 预测未来,第 4 部分: 预测解决方案的实际应用]
 
*[http://www.ibm.com/developerworks/cn/data/library/ba/ba-predictive-analytics4/index.html 预测未来,第 4 部分: 预测解决方案的实际应用]
  
==图集==
+
==课程==
<gallery>
+
*[https://www.edx.org/course/shu-ju-wa-jue-li-lun-yu-suan-fa-data-tsinghuax-80240372x 数据挖掘:理论与算法] 最有趣的理论+最有用的算法=不得不学的数据科学。
Image:data-mining-confluence-of-multiple-disciplines.png|吸纳多领域技术
+
image:data-mining-10-method.jpg|10种分析方法
+
</gallery>
+
  
==商业厂商==
+
讲义下载:
 +
*[http://docs.huihoo.com/edx/courses/data-mining-theory-and-algorithms/01-Introduction.pdf 1. 走进数据科学]:博大精深,美不胜收
 +
*[http://docs.huihoo.com/edx/courses/data-mining-theory-and-algorithms/02-Data-Preprocessing.pdf 2. 数据预处理]:抽丝剥茧,去伪存真
 +
*[http://docs.huihoo.com/edx/courses/data-mining-theory-and-algorithms/03-Bayes-Decision-Tree-Classifiers.pdf 3. 从贝叶斯到决策树]:意料之外,情理之中
 +
*[http://docs.huihoo.com/edx/courses/data-mining-theory-and-algorithms/04-Neural-Networks.pdf 4. 神经网络]:巨量并行,智慧无限
 +
*[http://docs.huihoo.com/edx/courses/data-mining-theory-and-algorithms/05-Support-Vector-Machines.pdf 5. 支持向量机]:数学之美,巅峰之作
 +
*[http://docs.huihoo.com/edx/courses/data-mining-theory-and-algorithms/06-Clustering.pdf 6. 聚类分析]:物以类聚,人以群分
 +
*[http://docs.huihoo.com/edx/courses/data-mining-theory-and-algorithms/07-Association-Rule.pdf 7. 关联规则]:营销购物,自有乾坤
 +
*[http://docs.huihoo.com/edx/courses/data-mining-theory-and-algorithms/08-Recommendation.pdf 8. 推荐算法]:察言观色,投其所好
 +
*[http://docs.huihoo.com/edx/courses/data-mining-theory-and-algorithms/09-Ensemble-Learning.pdf 9. 集成学习]:兼听则明,偏听则暗
 +
*[http://docs.huihoo.com/edx/courses/data-mining-theory-and-algorithms/10-Evolutionary-Algorithms.pdf A. 进化计算]:大道至简,万物之本
 +
 
 +
==厂商==
 
top eight data-mining software vendors in 2008 published in a Gartner study.
 
top eight data-mining software vendors in 2008 published in a Gartner study.
 
* Angoss Software
 
* Angoss Software
第50行: 第85行:
 
* Unica
 
* Unica
 
* Viscovery
 
* Viscovery
 +
 +
==图集==
 +
<gallery>
 +
image:data-mining-confluence-of-multiple-disciplines.png|吸纳多领域技术
 +
image:data-mining-10-method.jpg|10种分析方法
 +
image:orange-data-mining.png|Orange
 +
image:data-mining-interdisciplinary.png|跨领域跨学科
 +
image:data-mining-ubiquitous.png|无所不在
 +
image:From-Data-To-Intelligence.png|从数据到智能
 +
image:self-service-data-preparation.png|数据预处理
 +
image:Gartner-Magic-Quadrant-for-Data-Integration-Tools-August-2017.png|数据集成工具魔力象限
 +
</gallery>
  
 
==链接==
 
==链接==
第55行: 第102行:
  
 
[[category:data mining]]
 
[[category:data mining]]
 +
[[category:data analysis]]
 +
[[category:data science]]
 +
[[category:computer science]]
 +
[[category:machine learning]]
 +
[[category:database]]
 
[[category:business intelligence]]
 
[[category:business intelligence]]

2022年8月9日 (二) 10:50的最后版本

Wikipedia-35x35.png 您可以在Wikipedia上了解到此条目的英文信息 Data mining Thanks, Wikipedia.

data mining 数据挖掘

数据挖掘是从大量数据中寻找其规律的技术,主要有数据准备、规律寻找和规律表示三个步骤。数据准备是从各种数据源中选取和集成用于数据挖掘的数据;规律寻找是用某种方法将数据中的规律找出来;规律表示是用尽可能符合用户习惯的方式(如可视化)将找出的数据呈现出来。

目录

[编辑] 简介

机器学习数据库是数据挖掘的两大支撑。

[编辑] 理论

[编辑] 项目

[编辑] 工作流

一个通用数据挖掘工作流包含以下步骤:

  • Loading the data.
  • Preprocessing, analyzing, and filtering the input data.
  • Discovering patterns, affinities, clusters, and classes.
  • Selecting the model features and the appropriate machine learning algorithm(s).
  • Refining and validating the model.
  • Improving the computational performance of the implementation.

以上信息来源《Scala for Machine Learning》

[编辑] 数据预处理

[编辑] 分析方法

数据挖掘的十种分析方法:

  • 记忆基础推理法
  • 市场购物篮分析
  • 决策树(Decision Trees)
  • 基因算法(Genetic Algorithm)
  • 群集侦测技术
  • 连结分析(Link Analysis)
  • 在线分析处理(OLAP)
  • 类神经网络(Neural Networks)
  • 区别分析
  • 罗吉斯回归分析

详细内容见大图

[编辑] 文档

[编辑] 专题

在大数据时代,描述性的数据分析已经无法满足业务的需求,数据预测分析技术正成为商业智能发展的新方向。本系列将为您介绍预测分析技术的总体概述,预测分析的数学算法,预测解决方案的构建过程以及部署等方面的内容。

[编辑] 课程

讲义下载:

[编辑] 厂商

top eight data-mining software vendors in 2008 published in a Gartner study.

  • Angoss Software
  • Infor CRM Epiphany
  • Portrait Software
  • SAS
  • SPSS
  • ThinkAnalytics
  • Unica
  • Viscovery

[编辑] 图集

[编辑] 链接

分享您的观点
个人工具
名字空间

变换
操作
导航
工具箱