Data mining

来自开放百科 - 灰狐
(版本间的差异)
跳转到: 导航, 搜索
(链接)
 
(未显示1个用户的31个中间版本)
第1行: 第1行:
 +
{{SeeWikipedia}}
 +
 +
data mining 数据挖掘
 +
 
数据挖掘是从大量数据中寻找其规律的技术,主要有数据准备、规律寻找和规律表示三个步骤。数据准备是从各种数据源中选取和集成用于数据挖掘的数据;规律寻找是用某种方法将数据中的规律找出来;规律表示是用尽可能符合用户习惯的方式(如可视化)将找出的数据呈现出来。
 
数据挖掘是从大量数据中寻找其规律的技术,主要有数据准备、规律寻找和规律表示三个步骤。数据准备是从各种数据源中选取和集成用于数据挖掘的数据;规律寻找是用某种方法将数据中的规律找出来;规律表示是用尽可能符合用户习惯的方式(如可视化)将找出的数据呈现出来。
  
==Projects==
+
==简介==
*[[Weka]]
+
[[machine learning|机器学习]]和[[database|数据库]]是数据挖掘的两大支撑。
 +
 
 +
==理论==
 +
 
 +
==项目==
 +
*[[Orange]]
 +
*[[R Project]]
 +
*[[Apache Kylin]]
 +
*[[weka]]
 
*[[QuickMiner]]
 
*[[QuickMiner]]
==Links==
+
*[[ScalaNLP]]
 +
*商业软件:[[SPSS]]
 +
 
 +
==工作流==
 +
一个通用数据挖掘工作流包含以下步骤:
 +
*Loading the data.
 +
*Preprocessing, analyzing, and filtering the input data.
 +
*Discovering patterns, affinities, clusters, and classes.
 +
*Selecting the model features and the appropriate machine learning algorithm(s).
 +
*Refining and validating the model.
 +
*Improving the computational performance of the implementation.
 +
以上信息来源《Scala for Machine Learning》
 +
 
 +
==数据预处理==
 +
*[[Pentaho]] [http://events.pentaho.com/data-prep-starter-kit.html Data Preparation Starter Ki]
 +
*[https://www.gartner.com/doc/reprints?id=1-3GQGPV9&ct=160901&st=sb Market Guide for Self-Service Data Preparation]
 +
*[http://docs.huihoo.com/data-science/Imporving-Data-Preparation-for-Business-Analytics-Best-Practices-Report-Q3-2016.pdf Improving Data Preparation for Business Analytics]
 +
 
 +
==分析方法==
 +
数据挖掘的十种分析方法:
 +
*记忆基础推理法
 +
*市场购物篮分析
 +
*决策树(Decision Trees)
 +
*基因算法(Genetic Algorithm)
 +
*群集侦测技术
 +
*连结分析(Link Analysis)
 +
*在线分析处理(OLAP)
 +
*类神经网络(Neural Networks)
 +
*区别分析
 +
*罗吉斯回归分析
 +
详细内容见大图
 +
 
 +
==文档==
 +
*[http://docs.huihoo.com/data-mining/concepts-and-techniques/3rd/slides/ Data Mining: Concepts and Techniques, 3rd ed 幻灯片PPT]
 +
*[http://docs.huihoo.com/data-mining/concepts-and-techniques/2nd/slides/ Data Mining: Concepts and Techniques, 2nd ed 幻灯片PPT]
 +
*[http://docs.huihoo.com/oracle/openworld/2014/CON8596-Predictive-Analytics-with-Oracle-Data-Mining.pptx Predictive Analytics with Oracle Data Mining]
 +
 
 +
==专题==
 +
在大数据时代,描述性的数据分析已经无法满足业务的需求,数据预测分析技术正成为商业智能发展的新方向。本系列将为您介绍预测分析技术的总体概述,预测分析的数学算法,预测解决方案的构建过程以及部署等方面的内容。
 +
*[http://www.ibm.com/developerworks/cn/data/library/ba/ba-predictive-analytics1/index.html 预测未来,第 1 部分: 什么是预测分析?]
 +
*[http://www.ibm.com/developerworks/cn/data/library/ba/ba-predictive-analytics2/index.html 预测未来,第 2 部分: 预测建模技术]
 +
*[http://www.ibm.com/developerworks/cn/data/library/ba/ba-predictive-analytics3/index.html 预测未来,第 3 部分: 创建一个预测解决方案]
 +
*[http://www.ibm.com/developerworks/cn/data/library/ba/ba-predictive-analytics4/index.html 预测未来,第 4 部分: 预测解决方案的实际应用]
 +
 
 +
==课程==
 +
*[https://www.edx.org/course/shu-ju-wa-jue-li-lun-yu-suan-fa-data-tsinghuax-80240372x 数据挖掘:理论与算法] 最有趣的理论+最有用的算法=不得不学的数据科学。
 +
 
 +
讲义下载:
 +
*[http://docs.huihoo.com/edx/courses/data-mining-theory-and-algorithms/01-Introduction.pdf 1. 走进数据科学]:博大精深,美不胜收
 +
*[http://docs.huihoo.com/edx/courses/data-mining-theory-and-algorithms/02-Data-Preprocessing.pdf 2. 数据预处理]:抽丝剥茧,去伪存真
 +
*[http://docs.huihoo.com/edx/courses/data-mining-theory-and-algorithms/03-Bayes-Decision-Tree-Classifiers.pdf 3. 从贝叶斯到决策树]:意料之外,情理之中
 +
*[http://docs.huihoo.com/edx/courses/data-mining-theory-and-algorithms/04-Neural-Networks.pdf 4. 神经网络]:巨量并行,智慧无限
 +
*[http://docs.huihoo.com/edx/courses/data-mining-theory-and-algorithms/05-Support-Vector-Machines.pdf 5. 支持向量机]:数学之美,巅峰之作
 +
*[http://docs.huihoo.com/edx/courses/data-mining-theory-and-algorithms/06-Clustering.pdf 6. 聚类分析]:物以类聚,人以群分
 +
*[http://docs.huihoo.com/edx/courses/data-mining-theory-and-algorithms/07-Association-Rule.pdf 7. 关联规则]:营销购物,自有乾坤
 +
*[http://docs.huihoo.com/edx/courses/data-mining-theory-and-algorithms/08-Recommendation.pdf 8. 推荐算法]:察言观色,投其所好
 +
*[http://docs.huihoo.com/edx/courses/data-mining-theory-and-algorithms/09-Ensemble-Learning.pdf 9. 集成学习]:兼听则明,偏听则暗
 +
*[http://docs.huihoo.com/edx/courses/data-mining-theory-and-algorithms/10-Evolutionary-Algorithms.pdf A. 进化计算]:大道至简,万物之本
 +
 
 +
==厂商==
 +
top eight data-mining software vendors in 2008 published in a Gartner study.
 +
* Angoss Software
 +
* Infor CRM Epiphany
 +
* Portrait Software
 +
* SAS
 +
* SPSS
 +
* ThinkAnalytics
 +
* Unica
 +
* Viscovery
 +
 
 +
==图集==
 +
<gallery>
 +
image:data-mining-confluence-of-multiple-disciplines.png|吸纳多领域技术
 +
image:data-mining-10-method.jpg|10种分析方法
 +
image:orange-data-mining.png|Orange
 +
image:data-mining-interdisciplinary.png|跨领域跨学科
 +
image:data-mining-ubiquitous.png|无所不在
 +
image:From-Data-To-Intelligence.png|从数据到智能
 +
image:self-service-data-preparation.png|数据预处理
 +
image:Gartner-Magic-Quadrant-for-Data-Integration-Tools-August-2017.png|数据集成工具魔力象限
 +
</gallery>
 +
 
 +
==链接==
 
*http://datamining.typepad.com/
 
*http://datamining.typepad.com/
 +
 +
[[category:data mining]]
 +
[[category:data analysis]]
 +
[[category:data science]]
 +
[[category:computer science]]
 +
[[category:machine learning]]
 +
[[category:database]]
 +
[[category:business intelligence]]

2022年8月9日 (二) 10:50的最后版本

Wikipedia-35x35.png 您可以在Wikipedia上了解到此条目的英文信息 Data mining Thanks, Wikipedia.

data mining 数据挖掘

数据挖掘是从大量数据中寻找其规律的技术,主要有数据准备、规律寻找和规律表示三个步骤。数据准备是从各种数据源中选取和集成用于数据挖掘的数据;规律寻找是用某种方法将数据中的规律找出来;规律表示是用尽可能符合用户习惯的方式(如可视化)将找出的数据呈现出来。

目录

[编辑] 简介

机器学习数据库是数据挖掘的两大支撑。

[编辑] 理论

[编辑] 项目

[编辑] 工作流

一个通用数据挖掘工作流包含以下步骤:

  • Loading the data.
  • Preprocessing, analyzing, and filtering the input data.
  • Discovering patterns, affinities, clusters, and classes.
  • Selecting the model features and the appropriate machine learning algorithm(s).
  • Refining and validating the model.
  • Improving the computational performance of the implementation.

以上信息来源《Scala for Machine Learning》

[编辑] 数据预处理

[编辑] 分析方法

数据挖掘的十种分析方法:

  • 记忆基础推理法
  • 市场购物篮分析
  • 决策树(Decision Trees)
  • 基因算法(Genetic Algorithm)
  • 群集侦测技术
  • 连结分析(Link Analysis)
  • 在线分析处理(OLAP)
  • 类神经网络(Neural Networks)
  • 区别分析
  • 罗吉斯回归分析

详细内容见大图

[编辑] 文档

[编辑] 专题

在大数据时代,描述性的数据分析已经无法满足业务的需求,数据预测分析技术正成为商业智能发展的新方向。本系列将为您介绍预测分析技术的总体概述,预测分析的数学算法,预测解决方案的构建过程以及部署等方面的内容。

[编辑] 课程

讲义下载:

[编辑] 厂商

top eight data-mining software vendors in 2008 published in a Gartner study.

  • Angoss Software
  • Infor CRM Epiphany
  • Portrait Software
  • SAS
  • SPSS
  • ThinkAnalytics
  • Unica
  • Viscovery

[编辑] 图集

[编辑] 链接

分享您的观点
个人工具
名字空间

变换
操作
导航
工具箱