欢迎大家赞助一杯啤酒🍺 我们准备了下酒菜:Formal mathematics/Isabelle/ML, Formal verification/Coq/ACL2, C++/F#/Lisp
Data mining
来自开放百科 - 灰狐
(版本间的差异)
小 (→链接) |
小 (→链接) |
||
(未显示1个用户的9个中间版本) | |||
第4行: | 第4行: | ||
数据挖掘是从大量数据中寻找其规律的技术,主要有数据准备、规律寻找和规律表示三个步骤。数据准备是从各种数据源中选取和集成用于数据挖掘的数据;规律寻找是用某种方法将数据中的规律找出来;规律表示是用尽可能符合用户习惯的方式(如可视化)将找出的数据呈现出来。 | 数据挖掘是从大量数据中寻找其规律的技术,主要有数据准备、规律寻找和规律表示三个步骤。数据准备是从各种数据源中选取和集成用于数据挖掘的数据;规律寻找是用某种方法将数据中的规律找出来;规律表示是用尽可能符合用户习惯的方式(如可视化)将找出的数据呈现出来。 | ||
+ | |||
+ | ==简介== | ||
+ | [[machine learning|机器学习]]和[[database|数据库]]是数据挖掘的两大支撑。 | ||
+ | |||
+ | ==理论== | ||
==项目== | ==项目== | ||
第23行: | 第28行: | ||
*Improving the computational performance of the implementation. | *Improving the computational performance of the implementation. | ||
以上信息来源《Scala for Machine Learning》 | 以上信息来源《Scala for Machine Learning》 | ||
+ | |||
+ | ==数据预处理== | ||
+ | *[[Pentaho]] [http://events.pentaho.com/data-prep-starter-kit.html Data Preparation Starter Ki] | ||
+ | *[https://www.gartner.com/doc/reprints?id=1-3GQGPV9&ct=160901&st=sb Market Guide for Self-Service Data Preparation] | ||
+ | *[http://docs.huihoo.com/data-science/Imporving-Data-Preparation-for-Business-Analytics-Best-Practices-Report-Q3-2016.pdf Improving Data Preparation for Business Analytics] | ||
==分析方法== | ==分析方法== | ||
第52行: | 第62行: | ||
==课程== | ==课程== | ||
*[https://www.edx.org/course/shu-ju-wa-jue-li-lun-yu-suan-fa-data-tsinghuax-80240372x 数据挖掘:理论与算法] 最有趣的理论+最有用的算法=不得不学的数据科学。 | *[https://www.edx.org/course/shu-ju-wa-jue-li-lun-yu-suan-fa-data-tsinghuax-80240372x 数据挖掘:理论与算法] 最有趣的理论+最有用的算法=不得不学的数据科学。 | ||
+ | |||
+ | 讲义下载: | ||
+ | *[http://docs.huihoo.com/edx/courses/data-mining-theory-and-algorithms/01-Introduction.pdf 1. 走进数据科学]:博大精深,美不胜收 | ||
+ | *[http://docs.huihoo.com/edx/courses/data-mining-theory-and-algorithms/02-Data-Preprocessing.pdf 2. 数据预处理]:抽丝剥茧,去伪存真 | ||
+ | *[http://docs.huihoo.com/edx/courses/data-mining-theory-and-algorithms/03-Bayes-Decision-Tree-Classifiers.pdf 3. 从贝叶斯到决策树]:意料之外,情理之中 | ||
+ | *[http://docs.huihoo.com/edx/courses/data-mining-theory-and-algorithms/04-Neural-Networks.pdf 4. 神经网络]:巨量并行,智慧无限 | ||
+ | *[http://docs.huihoo.com/edx/courses/data-mining-theory-and-algorithms/05-Support-Vector-Machines.pdf 5. 支持向量机]:数学之美,巅峰之作 | ||
+ | *[http://docs.huihoo.com/edx/courses/data-mining-theory-and-algorithms/06-Clustering.pdf 6. 聚类分析]:物以类聚,人以群分 | ||
+ | *[http://docs.huihoo.com/edx/courses/data-mining-theory-and-algorithms/07-Association-Rule.pdf 7. 关联规则]:营销购物,自有乾坤 | ||
+ | *[http://docs.huihoo.com/edx/courses/data-mining-theory-and-algorithms/08-Recommendation.pdf 8. 推荐算法]:察言观色,投其所好 | ||
+ | *[http://docs.huihoo.com/edx/courses/data-mining-theory-and-algorithms/09-Ensemble-Learning.pdf 9. 集成学习]:兼听则明,偏听则暗 | ||
+ | *[http://docs.huihoo.com/edx/courses/data-mining-theory-and-algorithms/10-Evolutionary-Algorithms.pdf A. 进化计算]:大道至简,万物之本 | ||
==厂商== | ==厂商== | ||
第70行: | 第92行: | ||
image:orange-data-mining.png|Orange | image:orange-data-mining.png|Orange | ||
image:data-mining-interdisciplinary.png|跨领域跨学科 | image:data-mining-interdisciplinary.png|跨领域跨学科 | ||
+ | image:data-mining-ubiquitous.png|无所不在 | ||
+ | image:From-Data-To-Intelligence.png|从数据到智能 | ||
+ | image:self-service-data-preparation.png|数据预处理 | ||
+ | image:Gartner-Magic-Quadrant-for-Data-Integration-Tools-August-2017.png|数据集成工具魔力象限 | ||
</gallery> | </gallery> | ||
第76行: | 第102行: | ||
[[category:data mining]] | [[category:data mining]] | ||
− | |||
[[category:data analysis]] | [[category:data analysis]] | ||
[[category:data science]] | [[category:data science]] | ||
+ | [[category:computer science]] | ||
+ | [[category:machine learning]] | ||
+ | [[category:database]] | ||
+ | [[category:business intelligence]] |
2022年8月9日 (二) 10:50的最后版本
您可以在Wikipedia上了解到此条目的英文信息 Data mining Thanks, Wikipedia. |
data mining 数据挖掘
数据挖掘是从大量数据中寻找其规律的技术,主要有数据准备、规律寻找和规律表示三个步骤。数据准备是从各种数据源中选取和集成用于数据挖掘的数据;规律寻找是用某种方法将数据中的规律找出来;规律表示是用尽可能符合用户习惯的方式(如可视化)将找出的数据呈现出来。
目录 |
[编辑] 简介
[编辑] 理论
[编辑] 项目
[编辑] 工作流
一个通用数据挖掘工作流包含以下步骤:
- Loading the data.
- Preprocessing, analyzing, and filtering the input data.
- Discovering patterns, affinities, clusters, and classes.
- Selecting the model features and the appropriate machine learning algorithm(s).
- Refining and validating the model.
- Improving the computational performance of the implementation.
以上信息来源《Scala for Machine Learning》
[编辑] 数据预处理
- Pentaho Data Preparation Starter Ki
- Market Guide for Self-Service Data Preparation
- Improving Data Preparation for Business Analytics
[编辑] 分析方法
数据挖掘的十种分析方法:
- 记忆基础推理法
- 市场购物篮分析
- 决策树(Decision Trees)
- 基因算法(Genetic Algorithm)
- 群集侦测技术
- 连结分析(Link Analysis)
- 在线分析处理(OLAP)
- 类神经网络(Neural Networks)
- 区别分析
- 罗吉斯回归分析
详细内容见大图
[编辑] 文档
- Data Mining: Concepts and Techniques, 3rd ed 幻灯片PPT
- Data Mining: Concepts and Techniques, 2nd ed 幻灯片PPT
- Predictive Analytics with Oracle Data Mining
[编辑] 专题
在大数据时代,描述性的数据分析已经无法满足业务的需求,数据预测分析技术正成为商业智能发展的新方向。本系列将为您介绍预测分析技术的总体概述,预测分析的数学算法,预测解决方案的构建过程以及部署等方面的内容。
[编辑] 课程
- 数据挖掘:理论与算法 最有趣的理论+最有用的算法=不得不学的数据科学。
讲义下载:
- 1. 走进数据科学:博大精深,美不胜收
- 2. 数据预处理:抽丝剥茧,去伪存真
- 3. 从贝叶斯到决策树:意料之外,情理之中
- 4. 神经网络:巨量并行,智慧无限
- 5. 支持向量机:数学之美,巅峰之作
- 6. 聚类分析:物以类聚,人以群分
- 7. 关联规则:营销购物,自有乾坤
- 8. 推荐算法:察言观色,投其所好
- 9. 集成学习:兼听则明,偏听则暗
- A. 进化计算:大道至简,万物之本
[编辑] 厂商
top eight data-mining software vendors in 2008 published in a Gartner study.
- Angoss Software
- Infor CRM Epiphany
- Portrait Software
- SAS
- SPSS
- ThinkAnalytics
- Unica
- Viscovery
[编辑] 图集
[编辑] 链接
分享您的观点