机器学习的准备工作

2019-08-11 机器学习机器学习 0 评论

1.收集数据

这个工作应该放到平日来做，但是如果临时需要数据的话，可以在原始的数据上做一定的变动而得到更多的训练数据

2.提取特征

提取特征的准则

预处理数据

1.标签类型转换

# 标签转换成整形
import numpy as np
from sklearn.preprocessing import LabelBinarizer	# 标签转换器
from sklearn.preprocessing import LabelBinarizer	# 标签转换器
from sklearn.neighbors import KNeighborsClassifier	# KNN分类器
from sklearn.preprocessing import StandardScaler	# 特征所放器


####################################
# 训练数据
####################################
X_train = np.array([
 [158, 64],
 [170, 86],
 [183, 84],
 [191, 80],
 [155, 49],
 [163, 59],
 [180, 67],
 [158, 54],
 [170, 67] 
])

y_train = ['male', 'male', 'male', 'male', 'female', 'female', 'female','female', 'female']


####################################
# 测试数据
####################################
X_test = np.array([[155, 70],[160, 50]])

####################################
# 特征缩放
####################################
ss = StandardScaler()
X_train_scaled = ss.fit_transform(X_train)
X_test_scaled = ss.transform(X_test)

####################################
# 数据类型转换
####################################
lb = LabelBinarizer()
y_train_binarized = lb.fit_transform(y_train)
print(y_train_binarized)

"""
the output is :
[[1]
 [1]
 [0]
 [0]]
"""

####################################
# 训练和预测
####################################

# 训练
k = 3
clf = KNeighborsClassifier(n_neighbors=k)
clf.fit(X_train,y_train_binarized.reshape(1,-1)[0])

#预测
prediction_binarized = clf.predict(X_test)

# 转换标签
prediction_binarized = prediction_binarized.reshape(1,-1)[0]
y_test = lb.inverse_transform(prediction_binarized)
print(y_test)

3.确定模型

本文链接： http://www.zhangweixi.cc/ji-qi-xue-xi/ji-qi-xue-xi-de-zhun-bei-gong-zuo.html

版权声明： 本博客所有文章除特别声明外，均采用 CC BY 4.0 CN协议许可协议。转载请注明出处！

西域数据技术分享

一个码农的笔记

机器学习的准备工作

1.收集数据

2.提取特征

提取特征的准则

预处理数据

1.标签类型转换

3.确定模型