使用 TensorFlow 的基本步骤
Intro to Pandas
import pandas as pd
pandas 中的主要数据结构被实现为以下两类:
DataFrame,您可以将它想象成一个关系型数据表格,其中包含多个行和已命名的列。
1
DaraFrame({'': series})
Series,它是单一列。DataFrame 中包含一个或多个 Series,每个 Series 均有一个名称。
1
Series([]) eg: ['name_a', 'name_b', 'name_c']
series.apply() is like python function map, params is lambda function, and it apply on every value in series
1
2population = pd.Series([852469, 1015785, 485199])
population.apply(lambda val: val > 1000000)update dataframe is easy too
1
2
3
4# add a new series
cities['Area square miles'] = pd.Series([46.87, 176.53, 97.92])
# make a new series from other two series
cities['Population density'] = cities['Population'] / cities['Area square miles']series use (| & !) not (and or not)
index
1
2
3city_names = pd.Series(['San Francisco', 'San Jose', 'Sacramento'])
city_name.index
cities.indexreindex
1
cities.reindex([2, 0, 1])
after reindex, index not update, just update location
reindex in random
most of pandas series is numpy’s function params
1
cities.reindex(np.random.permutation(cities.index))
reindex with outline index will create new serice in data frame
First setp with TensorFlow
导入的数据主要使用两种类型
- 分类数据 Categorical Data
- 数值数据 Numerical Data
定义输入特征
1 | # Define the input feature: total_rooms. |
定义标签
1 | # Define the label. |
使用 LinearRegressor(线性回归) 配置线性回归模型
1 | # 使用梯度下降优化器,并设置学习速率为 0.0000001 |
定义输入函数
1 | def my_input_fn(features, targets, batch_size=1, shuffle=True, num_epochs=None): |
训练模型
调用我们定义好的线性回归模型中的 train()
方法,将输入函数传入模型,并指定步数
1 | _ = linear_regressor.train( |
评估模型
为预测创建一个输入函数
当我们只对每一个例子做一次预测时,我们不需要重复或者随即打乱数据
1
prediction_input_fn =lambda: my_input_fn(my_feature, targets, num_epochs=1, shuffle=False)
调用模型的
predict()
方法来做预测1
predictions = linear_regressor.predict(input_fn=prediction_input_fn)
将预测的结果转换成 numpy 的 array 格式,以便于计算误差
1
predictions = np.array([item['predictions'][0] for item in predictions])
查看均方误差(MSE)和均方根误差(RMSE)
1
2mean_squared_error = metrics.mean_squared_error(predictions, targets)
root_mean_squared_error = math.sqrt(mean_squared_error)查看 RMSE 与目标最大值最小值的差值
1
2
3min_house_value = california_housing_dataframe["median_house_value"].min()
max_house_value = california_housing_dataframe["median_house_value"].max()
min_max_difference = max_house_value - min_house_value我们的误差跨越目标值的近一半范围,需要进一步缩小误差
查看误差
先查看数据,取样并绘制散点图和我们模型预测权重和偏差的线
取样
1
sample = california_housing_dataframe.sample(n=300)
画出我们预测值的方程线和散点图,查看差距
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23# 取样本数据中的最大最小值
x_0 = sample["total_rooms"].min()
x_1 = sample["total_rooms"].max()
# 获取训练过程中产生的最终权重和偏差。
weight = linear_regressor.get_variable_value('linear/linear_model/total_rooms/weights')[0]
bias = linear_regressor.get_variable_value('linear/linear_model/bias_weights')
# 计算出对房间数最小和最大的房屋的预测房价中值
y_0 = weight * x_0 + bias
y_1 = weight * x_1 + bias
# 绘制我们(x_0, y_0) to (x_1, y_1)两点间的回归线
plt.plot([x_0, x_1], [y_0, y_1], c='r')
# 定义坐标轴
plt.ylabel("median_house_value")
plt.xlabel("total_rooms")
# 绘制我们样本数据的散点图
plt.scatter(sample["total_rooms"], sample["median_house_value"])
plt.show()
调整模型超参数以降低误差
整合代码
1 | def train_model(learning_rate, steps, batch_size, input_feature="total_rooms"): |