鸢尾花数据集

鸢尾花数据集

一、鸢尾花:

1、测量数据:花瓣的长度和宽度,花萼的长度和宽度,所有测量结果都以厘米为单位。

2、有集能三个品种集能分类:setosa,versicolor,virginnica。

3、数据集中每朵鸢尾花介绍叫做一个数据点,它的品种叫做它的标签。

4、载入iris数据集介绍示例

from sklearn import datasetsiris = datasets.展示load_iris()

查看数据

(1)查看iris.下载keys()

结果如下:

dict_keys([&#下载集39;data', 'target', 'frame', 'target_names', 'DESCR', 'feature_names', 'filename', 'data_module'])

(2)查看data类型和维度

查看代码:

print(type(iris['data']))print(iris['data'].格式shape)

查看结果:

代码运行:

(3)查看data数据

其中data数组的每一行对应一朵花的测量数据,列代表每朵花的四个测量数据

查看是什么鸢尾代码:print(iris['data'])

查看结果:

代码运行:

机器学习的个体叫做样本分析,其属性叫做特征,data数组内容的形状是样本数乘以特征数。

(4)查看集能target类型和维度

查看代码:

print(iris_dataset['target'].格式名称简要shape)print(iris_dataset['target_names'])print(iris_dataset['target'])

查看结果:

代码运行:

data中的每个数据点被转换成target的一个值:0,1,鸢尾花数据集的简要介绍,2,鸢尾花数据集如何分类的。分别代表三个品种。

5、训练数据展示鸢尾和测试介绍数据

一部分数据用于构建简要模型,叫做训练数据,另一部分用于评估是什么模型性能,叫做测试数据。

利用scikit-learn中的train_test_split函数可以实现是什么这个功能下载。这个函数将鸢尾%75的数据用作训练集,将25%用作测试集,鸢尾花数据集的名称。

这个函数需要设置random_state,给其赋一个值,当多次运行此段代码能够得到完全一样分类的结果,别人运行此代码也可以尾花复现你的过程。若不设置此参数则会随机选择一个种子,执行结果也会因此而不同了。虽然可以对random_state进行调参,但是调参后在训练集上简要表现好的模型未必在训练集上表现好,鸢尾花数据集下载,所以一般会随便选取一个random_state的值作为参数。

代码:

X_train, X_test, y_train, y_test = train_test_split(iris['data'], iris['target'], random_state=0)print("X_train:{}".format(X_train[:10]))print("y_train:{}".format(y_train[:10]))

结果:

运行代码