欢迎大家赞助一杯啤酒🍺 我们准备了下酒菜:Formal mathematics/Isabelle/ML, Formal verification/Coq/ACL2, C++/F#/Lisp
Data mining
来自开放百科 - 灰狐
(版本间的差异)
小 (→链接) |
|||
(未显示1个用户的31个中间版本) | |||
第1行: | 第1行: | ||
+ | {{SeeWikipedia}} | ||
+ | |||
+ | data mining 数据挖掘 | ||
+ | |||
数据挖掘是从大量数据中寻找其规律的技术,主要有数据准备、规律寻找和规律表示三个步骤。数据准备是从各种数据源中选取和集成用于数据挖掘的数据;规律寻找是用某种方法将数据中的规律找出来;规律表示是用尽可能符合用户习惯的方式(如可视化)将找出的数据呈现出来。 | 数据挖掘是从大量数据中寻找其规律的技术,主要有数据准备、规律寻找和规律表示三个步骤。数据准备是从各种数据源中选取和集成用于数据挖掘的数据;规律寻找是用某种方法将数据中的规律找出来;规律表示是用尽可能符合用户习惯的方式(如可视化)将找出的数据呈现出来。 | ||
− | == | + | ==简介== |
− | *[[ | + | [[machine learning|机器学习]]和[[database|数据库]]是数据挖掘的两大支撑。 |
+ | |||
+ | ==理论== | ||
+ | |||
+ | ==项目== | ||
+ | *[[Orange]] | ||
+ | *[[R Project]] | ||
+ | *[[Apache Kylin]] | ||
+ | *[[weka]] | ||
*[[QuickMiner]] | *[[QuickMiner]] | ||
− | == | + | *[[ScalaNLP]] |
+ | *商业软件:[[SPSS]] | ||
+ | |||
+ | ==工作流== | ||
+ | 一个通用数据挖掘工作流包含以下步骤: | ||
+ | *Loading the data. | ||
+ | *Preprocessing, analyzing, and filtering the input data. | ||
+ | *Discovering patterns, affinities, clusters, and classes. | ||
+ | *Selecting the model features and the appropriate machine learning algorithm(s). | ||
+ | *Refining and validating the model. | ||
+ | *Improving the computational performance of the implementation. | ||
+ | 以上信息来源《Scala for Machine Learning》 | ||
+ | |||
+ | ==数据预处理== | ||
+ | *[[Pentaho]] [http://events.pentaho.com/data-prep-starter-kit.html Data Preparation Starter Ki] | ||
+ | *[https://www.gartner.com/doc/reprints?id=1-3GQGPV9&ct=160901&st=sb Market Guide for Self-Service Data Preparation] | ||
+ | *[http://docs.huihoo.com/data-science/Imporving-Data-Preparation-for-Business-Analytics-Best-Practices-Report-Q3-2016.pdf Improving Data Preparation for Business Analytics] | ||
+ | |||
+ | ==分析方法== | ||
+ | 数据挖掘的十种分析方法: | ||
+ | *记忆基础推理法 | ||
+ | *市场购物篮分析 | ||
+ | *决策树(Decision Trees) | ||
+ | *基因算法(Genetic Algorithm) | ||
+ | *群集侦测技术 | ||
+ | *连结分析(Link Analysis) | ||
+ | *在线分析处理(OLAP) | ||
+ | *类神经网络(Neural Networks) | ||
+ | *区别分析 | ||
+ | *罗吉斯回归分析 | ||
+ | 详细内容见大图 | ||
+ | |||
+ | ==文档== | ||
+ | *[http://docs.huihoo.com/data-mining/concepts-and-techniques/3rd/slides/ Data Mining: Concepts and Techniques, 3rd ed 幻灯片PPT] | ||
+ | *[http://docs.huihoo.com/data-mining/concepts-and-techniques/2nd/slides/ Data Mining: Concepts and Techniques, 2nd ed 幻灯片PPT] | ||
+ | *[http://docs.huihoo.com/oracle/openworld/2014/CON8596-Predictive-Analytics-with-Oracle-Data-Mining.pptx Predictive Analytics with Oracle Data Mining] | ||
+ | |||
+ | ==专题== | ||
+ | 在大数据时代,描述性的数据分析已经无法满足业务的需求,数据预测分析技术正成为商业智能发展的新方向。本系列将为您介绍预测分析技术的总体概述,预测分析的数学算法,预测解决方案的构建过程以及部署等方面的内容。 | ||
+ | *[http://www.ibm.com/developerworks/cn/data/library/ba/ba-predictive-analytics1/index.html 预测未来,第 1 部分: 什么是预测分析?] | ||
+ | *[http://www.ibm.com/developerworks/cn/data/library/ba/ba-predictive-analytics2/index.html 预测未来,第 2 部分: 预测建模技术] | ||
+ | *[http://www.ibm.com/developerworks/cn/data/library/ba/ba-predictive-analytics3/index.html 预测未来,第 3 部分: 创建一个预测解决方案] | ||
+ | *[http://www.ibm.com/developerworks/cn/data/library/ba/ba-predictive-analytics4/index.html 预测未来,第 4 部分: 预测解决方案的实际应用] | ||
+ | |||
+ | ==课程== | ||
+ | *[https://www.edx.org/course/shu-ju-wa-jue-li-lun-yu-suan-fa-data-tsinghuax-80240372x 数据挖掘:理论与算法] 最有趣的理论+最有用的算法=不得不学的数据科学。 | ||
+ | |||
+ | 讲义下载: | ||
+ | *[http://docs.huihoo.com/edx/courses/data-mining-theory-and-algorithms/01-Introduction.pdf 1. 走进数据科学]:博大精深,美不胜收 | ||
+ | *[http://docs.huihoo.com/edx/courses/data-mining-theory-and-algorithms/02-Data-Preprocessing.pdf 2. 数据预处理]:抽丝剥茧,去伪存真 | ||
+ | *[http://docs.huihoo.com/edx/courses/data-mining-theory-and-algorithms/03-Bayes-Decision-Tree-Classifiers.pdf 3. 从贝叶斯到决策树]:意料之外,情理之中 | ||
+ | *[http://docs.huihoo.com/edx/courses/data-mining-theory-and-algorithms/04-Neural-Networks.pdf 4. 神经网络]:巨量并行,智慧无限 | ||
+ | *[http://docs.huihoo.com/edx/courses/data-mining-theory-and-algorithms/05-Support-Vector-Machines.pdf 5. 支持向量机]:数学之美,巅峰之作 | ||
+ | *[http://docs.huihoo.com/edx/courses/data-mining-theory-and-algorithms/06-Clustering.pdf 6. 聚类分析]:物以类聚,人以群分 | ||
+ | *[http://docs.huihoo.com/edx/courses/data-mining-theory-and-algorithms/07-Association-Rule.pdf 7. 关联规则]:营销购物,自有乾坤 | ||
+ | *[http://docs.huihoo.com/edx/courses/data-mining-theory-and-algorithms/08-Recommendation.pdf 8. 推荐算法]:察言观色,投其所好 | ||
+ | *[http://docs.huihoo.com/edx/courses/data-mining-theory-and-algorithms/09-Ensemble-Learning.pdf 9. 集成学习]:兼听则明,偏听则暗 | ||
+ | *[http://docs.huihoo.com/edx/courses/data-mining-theory-and-algorithms/10-Evolutionary-Algorithms.pdf A. 进化计算]:大道至简,万物之本 | ||
+ | |||
+ | ==厂商== | ||
+ | top eight data-mining software vendors in 2008 published in a Gartner study. | ||
+ | * Angoss Software | ||
+ | * Infor CRM Epiphany | ||
+ | * Portrait Software | ||
+ | * SAS | ||
+ | * SPSS | ||
+ | * ThinkAnalytics | ||
+ | * Unica | ||
+ | * Viscovery | ||
+ | |||
+ | ==图集== | ||
+ | <gallery> | ||
+ | image:data-mining-confluence-of-multiple-disciplines.png|吸纳多领域技术 | ||
+ | image:data-mining-10-method.jpg|10种分析方法 | ||
+ | image:orange-data-mining.png|Orange | ||
+ | image:data-mining-interdisciplinary.png|跨领域跨学科 | ||
+ | image:data-mining-ubiquitous.png|无所不在 | ||
+ | image:From-Data-To-Intelligence.png|从数据到智能 | ||
+ | image:self-service-data-preparation.png|数据预处理 | ||
+ | image:Gartner-Magic-Quadrant-for-Data-Integration-Tools-August-2017.png|数据集成工具魔力象限 | ||
+ | </gallery> | ||
+ | |||
+ | ==链接== | ||
*http://datamining.typepad.com/ | *http://datamining.typepad.com/ | ||
+ | |||
+ | [[category:data mining]] | ||
+ | [[category:data analysis]] | ||
+ | [[category:data science]] | ||
+ | [[category:computer science]] | ||
+ | [[category:machine learning]] | ||
+ | [[category:database]] | ||
+ | [[category:business intelligence]] |
2022年8月9日 (二) 10:50的最后版本
您可以在Wikipedia上了解到此条目的英文信息 Data mining Thanks, Wikipedia. |
data mining 数据挖掘
数据挖掘是从大量数据中寻找其规律的技术,主要有数据准备、规律寻找和规律表示三个步骤。数据准备是从各种数据源中选取和集成用于数据挖掘的数据;规律寻找是用某种方法将数据中的规律找出来;规律表示是用尽可能符合用户习惯的方式(如可视化)将找出的数据呈现出来。
目录 |
[编辑] 简介
[编辑] 理论
[编辑] 项目
[编辑] 工作流
一个通用数据挖掘工作流包含以下步骤:
- Loading the data.
- Preprocessing, analyzing, and filtering the input data.
- Discovering patterns, affinities, clusters, and classes.
- Selecting the model features and the appropriate machine learning algorithm(s).
- Refining and validating the model.
- Improving the computational performance of the implementation.
以上信息来源《Scala for Machine Learning》
[编辑] 数据预处理
- Pentaho Data Preparation Starter Ki
- Market Guide for Self-Service Data Preparation
- Improving Data Preparation for Business Analytics
[编辑] 分析方法
数据挖掘的十种分析方法:
- 记忆基础推理法
- 市场购物篮分析
- 决策树(Decision Trees)
- 基因算法(Genetic Algorithm)
- 群集侦测技术
- 连结分析(Link Analysis)
- 在线分析处理(OLAP)
- 类神经网络(Neural Networks)
- 区别分析
- 罗吉斯回归分析
详细内容见大图
[编辑] 文档
- Data Mining: Concepts and Techniques, 3rd ed 幻灯片PPT
- Data Mining: Concepts and Techniques, 2nd ed 幻灯片PPT
- Predictive Analytics with Oracle Data Mining
[编辑] 专题
在大数据时代,描述性的数据分析已经无法满足业务的需求,数据预测分析技术正成为商业智能发展的新方向。本系列将为您介绍预测分析技术的总体概述,预测分析的数学算法,预测解决方案的构建过程以及部署等方面的内容。
[编辑] 课程
- 数据挖掘:理论与算法 最有趣的理论+最有用的算法=不得不学的数据科学。
讲义下载:
- 1. 走进数据科学:博大精深,美不胜收
- 2. 数据预处理:抽丝剥茧,去伪存真
- 3. 从贝叶斯到决策树:意料之外,情理之中
- 4. 神经网络:巨量并行,智慧无限
- 5. 支持向量机:数学之美,巅峰之作
- 6. 聚类分析:物以类聚,人以群分
- 7. 关联规则:营销购物,自有乾坤
- 8. 推荐算法:察言观色,投其所好
- 9. 集成学习:兼听则明,偏听则暗
- A. 进化计算:大道至简,万物之本
[编辑] 厂商
top eight data-mining software vendors in 2008 published in a Gartner study.
- Angoss Software
- Infor CRM Epiphany
- Portrait Software
- SAS
- SPSS
- ThinkAnalytics
- Unica
- Viscovery
[编辑] 图集
[编辑] 链接
分享您的观点