|
目录
|
机器学习 - 入门 |
70 次浏览 |
1次 |
|
|
机器学习使计算机能够从研究数据和统计信息中学习。
机器学习是迈向人工智能(AI)方向的其中一步。
机器学习是一种程序,可以分析数据并学习预测结果。
从何处开始?
在本教程中,我们将回到数学并研究统计学,以及如何根据数据集计算重要数值。
我们还将学习如何使用各种 Python 模块来获得所需的答案。
并且,我们将学习如何根据所学知识编写能够预测结果的函数。
数据集
在计算机中,数据集指的是任何数据集合。它可以是从数组到完整数据库的任何内容。
一个数组的例子:
[99,86,87,88,111,86,103,87,94,78,77,85,86] |
一个数据库的例子:
Carname |
Color |
Age |
Speed |
AutoPass |
BMW |
red |
5 |
99 |
Y |
Volvo |
black |
7 |
86 |
Y |
VW |
gray |
8 |
87 |
N |
VW |
white |
7 |
88 |
Y |
Ford |
white |
2 |
111 |
Y |
VW |
white |
17 |
86 |
Y |
Tesla |
red |
2 |
103 |
Y |
BMW |
black |
9 |
87 |
Y |
Volvo |
gray |
4 |
94 |
N |
Ford |
white |
11 |
78 |
N |
Toyota |
gray |
12 |
77 |
N |
VW |
white |
9 |
85 |
N |
Toyota |
blue |
6 |
86 |
Y |
通过查看数组,我们可以猜测平均值可能约为 80 或 90,并且我们还可以确定最大值和最小值,但是我们还能做什么?
通过查看数据库,我们可以看到最受欢迎的颜色是白色,最老的车龄是 17 年,但是如果仅通过查看其他值就可以预测汽车是否具有 AutoPass,该怎么办?
这就是机器学习的目的!分析数据并预测结果!
在机器学习中,通常使用非常大的数据集。在本教程中,我们会尝试让您尽可能容易地理解机器学习的不同概念,并将使用一些易于理解的小型数据集。
数据类型
如需分析数据,了解我们要处理的数据类型非常重要。
我们可以将数据类型分为三种主要类别:
- 数值(Numerical)
- 分类(Categorical)
- 序数(Ordinal)
数值数据 是数字,可以分为两种数值类别:
离散数据(Discrete Data)
- 限制为整数的数字。例如:经过的汽车数量。 连续数据(Continuous Data) - 具有无限值的数字。例如:一件商品的价格或一件商品的大小。
分类数据 是无法相互度量的值。例如:颜色值或任何 yes/no 值。
序数数据 类似于分类数据,但可以相互度量。示例:A 优于 B 的学校成绩,依此类推。
通过了解数据源的数据类型,您就能够知道在分析数据时使用何种技术。
在下一章中,您将学习有关统计和分析数据的更多知识。
|
70 次浏览 |
1次 |
|
|
|