TensorFlow 网络层
wangzf / 2022-07-15
目录
深度学习模型一般由各种模型层组合而成,tf.keras.layers
内置了非常丰富的各种功能的模型层
如果这些内置模型层不能够满足需求,可以通过编写 tf.keras.Lambda
匿名模型层,
或继承 tf.keras.layers.Layer
基类构建自定义的模型层
内置模型层
模型层共有的方法
权重设置与获取
.get_weights()
.set_weights(weights)
.get_config()
tf.keras.layer.Dense.from_config(config)
tf.keras.layer.deserialize({"class_name": class_name, "config": config})
层属性获取
- 如果 Layer 是单个节点(不是共享 layer), 可以使用以下方式获取 layer 的属性:
.input
.output
.input_shape
.output_shape
- 如果 Layer 具有多个节点(共享 layer), 可以使用以下方式获取 layer 的属性:
.getinputat(note_index)
.getoutputat(note_index)
.getinputshapeat(noteindex)
.getoutputshaepat(noteindex)
常用内置模型层
常用核心层
Dense()
: 密集连接层- 参数个数 = 输入层特征数
$\times$
输出层特征数(weight) + 输出层特征数(bias)
- 参数个数 = 输入层特征数
Input()
: 输入层- 通常使用 Functional API 方式构建模型时作为第一层
Flatten()
: 压平层- 用于将多维张量压成一维
Reshape()
: 形状重塑层- 改变输入张量的形状
Activation()
: 激活函数层- 一般放在
Dense
层后面,等价于在Dense
层中指定 activation
- 一般放在
- 正则化层
Dropout()
: 随机置零层- 训练期间以一定概率将输入置为 0,一种正则化手段
SpatialDropout2D()
: 空间随机置零层- 训练期间以一定概率将整个特征图置 0,一种正则化手段
- 有利于避免特征图之间过高的相关性
DenseFeature()
: 特征列接入层- 用于接收一个特征列列表并产生一个密集链接层
- 合并层
Add()
: 加法层Subtract()
: 减法层Multiply()
: 乘法层Average()
: 取平均层Maximum()
: 取最大值层Minimum()
: 取最小值层Concatenate()
: 拼接层- 将多个张量在某个维度上拼接
Dot()
: 点积层
- 标准化层
BatchNormalization()
: 批标准化层- 通过线性变换将输入批次缩放平移到稳定的均值和标准差
- 可以增强模型对输入不同分布的适应性,加快模型训练速度,有轻微正则化效果
- 一般在激活函数之前使用
- 高级激活函数层
LeakyReLU()
PReLU()
ELU()
ThresholdedReLU()
Softmax()
ReLU()
- 噪声层
GaussianNoise()
GaussianDropout()
AlphaDropout()
- 自定义层
Lambda()
: 编写tf.keras.Lambda
层- 继承
tf.keras.layers.Layer
基类自定义层build(input_shape)
call(x)
compute_output_shape(input_shape)
- 其他层
Permute()
RepeatVector()
Masking()
卷积网络相关层
- 卷积层
Conv1D
: 普通一维卷积- 常用于文本,参数个数 = 输入通道数
$\times$
卷积核尺寸(如 3)$\times$
卷积核个数
- 常用于文本,参数个数 = 输入通道数
Conv2D
: 普通二维卷积- 常用于图像,参数个数 = 输入通道数
$\times$
卷积核尺寸(如 3$\times$
3)$\times$
卷积核个数
- 常用于图像,参数个数 = 输入通道数
Conv3D
: 普通三维卷积- 常用于视频,参数个数 = 输入通道数
$\times$
卷积核尺寸(如 3$\times$
3$\times$
3)$\times$
卷积核个数
- 常用于视频,参数个数 = 输入通道数
SeparableConv2D
: 二维深度可分离卷积层- 不同于普通卷积同时对区域和通道操作,深度可分离卷积先操作区域, 再操作通道。即先对每个通道做独立卷积操作区域,再用1乘1卷积跨通道组合操作通道。
- 参数个数 = 输入通道数×卷积核尺寸 + 输入通道数×1×1×输出通道数
- 深度可分离卷积的参数数量一般远小于普通卷积,效果一般也更好
DepthwiseConv2D
: 二维深度卷积层- 仅有
SeparableConv2D
前半部分操作,即只操作区域,不操作通道, 一般输出通道数和输入通道数相同,但也可以通过设置depth_multiplier
让输出通道为输入通道的若干倍数 - 输出通道数 = 输入通道数 × depth_multiplier
- 参数个数 = 输入通道数 × 卷积核尺寸 × depth_multiplier
- 仅有
- Transpose
Conv2DTranspose
: 二维卷积转置层- 俗称反卷积层。并非卷积的逆操作,但在卷积核相同的情况下, 当其输入尺寸是卷积操作输出尺寸的情况下, 卷积转置的输出尺寸恰好是卷积操作的输入尺寸
Conv3DTranspose
- Cropping
Cropping1D
Cropping2D
Cropping3D
- UnSampling
UnSampling1D
UnSampling2D
UnSampling3D
- ZeroPadding
ZeroPadding1D
ZeroPadding2D
ZeroPadding3D
- Locally-connected Layers
LocallyConnected2D()
: 二维局部连接层- 类似
Conv2D
,唯一的差别是没有空间上的权值共享,所以其参数个数远高于二维卷积
- 类似
- Pooling Layers
- 最大池化
MaxPolling1D()
MaxPolling2D()
: 二维最大池化层,也称作下采样层- 池化层无可训练参数,主要作用是降维
MaxPolling3D()
GlobalMaxPolling1D()
GlobalMaxPolling2D()
: 全局最大池化层- 每个通道仅保留一个值。一般从卷积层过渡到全连接层时使用,是
Flatten
的替代方案
- 每个通道仅保留一个值。一般从卷积层过渡到全连接层时使用,是
GlobalMaxPolling3D()
- 平均池化
AveragePolling1D()
AveragePolling2D()
: 二维平均池化层AveragePolling3D()
GlobalAveragePolling1D()
GlobalAveragePolling2D()
: 全局平均池化层- 每个通道仅保留一个值
GlobalAveragePolling3D()
- 最大池化
循环网络相关层
- RNN
RNN()
: RNN基本层- 接受一个循环网络单元或一个循环单元列表,通过调用
tf.keras.backend.rnn
函数在序列上进行迭代从而转换成循环网络层
- 接受一个循环网络单元或一个循环单元列表,通过调用
SimpleRNN()
: 简单循环网络层- 容易存在梯度消失,不能够适用长期依赖问题,一般较少使用
SimpleRNNCell()
: SimpleRNN 单元- 和 SimpleRNN 在整个序列上迭代相比,它仅在序列上迭代一步
AbstractRNNCell
: 抽象 RNN 单元- 通过对它的子类化用户可以自定义 RNN 单元,再通过 RNN 基本层的包裹实现用户自定义循环网络层
Embedding()
: 嵌入层- 一种比 one-hot 更加有效的对离散特征进行编码的方法
- 一般用于将输入中的单词映射为稠密向量
- 嵌入层的参数需要学习
- LSTM
LSTM()
: 长短记忆循环网络层,最普遍使用的循环网络层- 具有携带轨道,遗忘门,更新门,输出门
- 可以较为有效地缓解梯度消失问题,从而能够适用长期依赖问题
- 设置
return_sequences = True
时可以返回各个中间步骤输出,否则只返回最终输出
LSTMCell()
: LSTM 单元- 和 LSTM 在整个序列上迭代相比,它仅在序列上迭代一步。可以简单理解 LSTM 即 RNN 基本层包裹
LSTMCell
- 和 LSTM 在整个序列上迭代相比,它仅在序列上迭代一步。可以简单理解 LSTM 即 RNN 基本层包裹
ConvLSTM2D()
: 卷积长短记忆循环网络层- 结构上类似
LSTM()
,但对输入的转换操作和对状态的转换操作都是卷积运算
- 结构上类似
ConvLSTM2DCell()
- GRU
GRU()
: 门控循环网络层LSTM()
的低配版,不具有携带轨道,参数数量少于LSTM()
,训练速度更快
GRUCell()
: GRU 单元- 和 GRU 在整个序列上迭代相比,它仅在序列上迭代一步
- Attention
Attention
: Dot-product类型注意力机制层- 可以用于构建注意力模型
AdditiveAttention
: Additive 类型注意力机制层- 可以用于构建注意力模型
- CuDNN
CuDNNGRU()
CuDNNLSTM()
- Layer wrapper
TimeDistributed()
: 时间分布包装器- 包装后可以将 Dense、Conv2D 等作用到每一个时间片段上
Bidirectional()
: 双向循环网络包装器
自定义模型层
编写 tf.keras.Lambda 层
如果自定义模型层没有需要被训练的参数,一般推荐使用 Lambda
层实现。
Lambda
层由于没有需要被训练的参数,只需要定义正向传播逻辑即可,使用比 Layer
基类子类化更加简单。
Lambda
层的正向逻辑可以使用 Python 的 lambda
函数来表达,也可以使用 def
关键字定义函数来表达
import tensorflow as tf
from tensorflow.keras import layers, models, regularizers
mypower = layers.Lambda(lambda x: tf.math.pow(x, 2))
mypower(tf.range(5))
继承 tf.keras.layers.Layer 基类
如果自定义模型层有需要被训练的参数,则可以通过对 Layer
基类子类化实现。
通过 Layer
的子类化自定义层一般需要继承 tf.keras.layers.Layers
类,
并重写 __init__
、build
、call
三个方法
import numpy as np
import tensorflow as tf
class MyLayer(tf.keras.layers.Layer):
def __init__(self):
super().__init__()
# 初始化代码
def build(self, input_shape):
"""
input_shape 是一个 TensorShape 类型对象, 提供输入的形状
"""
# 在第一次使用该层的时候调用该部分代码,
# 在这里创建变量可以使得变量的形状自适应输入的形状
# 而不需要使用者额外指定变量形状
# 如果已经可以完全确定变量的形状, 也可以在 __init__ 部分创建变量
self.variable_0 = self.add_weight(...)
self.variable_1 = self.add_weight(...)
def call(self, inputs):
# 模型调用的代码(处理输入并返回输出)
return output
线性层示例
import numpy as np
import tensorflow as tf
class Linear(tf.keras.layers.Layer):
def __init__(self, units = 32, **kwargs):
super(Linear, self).__init__(**kwargs)
self.units = units
def build(self, input_shape):
"""
build 方法一般定义 Layer 需要被训练的参数
"""
self.w = self.add_weight(
name = "w",
shape = (input_shape[-1], self.units), # [n, 1]
initializer = tf.zeros_initializer(),
trainable = True,
)
self.b = self.add_weight(
name = "b",
shape = (self.units), # [1]
initializer = tf.zeros_initializer(),
trainable = True,
)
# 相当于设置 self.built = True
super(Linear, self).build(input_shape)
@tf.function
def call(self, inputs):
"""
call 方法一般定义正向传播运算逻辑,__call__ 方法调用了它
"""
y_pred = tf.matmul(inputs, self.w) + self.b
return y_pred
def get_config(self):
"""
如果要让自定义的 Layer 通过 Function API
组成模型时可以被保存成 h5 模型
需要自定义 get_config 方法
"""
config = super(Linear, self).get_config()
config.update({
"units": self.units,
})
return config
# ------------------------------
#
# ------------------------------
# 模型实例化
linear = Linear(units = 8)
print(linear.built)
# 指定 input_shape,显式调用 build 方法,第 0 维代表样本数量,用 None 填充
linear.build(input_shape = (None, 16))
print(linear.built)
print(linear.compute_output_shape(input_shape = (None, 16)))
# ------------------------------
#
# ------------------------------
linear = Linar(units = 16)
print(linear.built)
# 如果 built = False,调用 __call__ 时会先调用 build 方法,再调用 call 方法
linear(tf.random.uniform((100, 64)))
print(linear.built)
config = linear.get_config()
print(config)
# ------------------------------
# 模型构建
# ------------------------------
tf.keras.backend.clear_session()
model = models.Sequential()
model.add(
Linear(units = 1, input_shape = (2,))
)
print(f"model.input_shape: {model.input_shape}")
print(f"model.output_shape: {model.output.shape}")
model.summary()
# ------------------------------
# 模型训练
# ------------------------------
model.compile(optimizer = "sgd", loss = "mse", metrics = ["mae"])
predictions = model.predict(tf.constant(
[[3.0, 2.0],
[4.0, 5.0]]
))
print(predictions)
# ------------------------------
# 保存模型为 h5 模型
# ------------------------------
model.save("./models/linear_model.h5", save_format = "h5")
model_loaded_keras = tf.keras.models.load_model(
"./models/linear_model.h5",
custom_objects = {"Linear": Linear},
)
predictions = model_loaded_keras.predict(tf.constant(
[[3.0, 2.0],
[4.0, 5.0]]
))
# ------------------------------
# 保存模型成 tf 模型
# ------------------------------
model.save("./models/linear_model", save_format = "tf")
model_loaded_tf = tf.keras.models.load_model(
"./models/linear_model"
)
predictions = model_loaded_tf.predict(tf.constant(
[[3.0, 2.0],
[4.0, 5.0]]
))
模型层配置
model.add(Layer(
# 输出、输出
output_dim,
input_dim,
# 参数初始化
kernel_initializer,
bias_initializer,
# 参数正则化
kernel_regularizer,
activity_regularizer,
# 参数约束
kernel_constraint,
bias_constraint,
# 层激活函数
activation,
))
# 输入
inputs = Input()
# 激活函数
model.add(Activation)
输入
输出
激活函数
模型可用的激活函数
- Softmax:
tf.nn.softmax
- ReLU:
tf.nn.relu
- tanh:
tf.nn.tanh
- Sigmoid:
tf.nn.sigmoid
- Linear:
tf.nn.linear
- Leaky ReLU:
tf.nn.leaky_relu
- ELU:
tf.nn.elu
- SELU:
tf.nn.selu
- swish:
tf.nn.swish
- GELU:
- TODO
在模型中使用激活函数
在 TensorFlow Keras 模型中使用激活函数一般有两种方式
- 作为某系层的
activation
参数指定 - 显式添加
tf.keras.layers.Activation
激活层
import numpy as np
import pandas as pd
import tensorflow as tf
from tensorflow.keras import layers, models
tf.keras.backend.clear_session()
model = models.Sequential()
model.add(layers.Dense(
32,
input_shape = (None, 16),
activation = tf.nn.relu
))
model.add(layers.Dense(10))
model.add(layers.Activation(tf.nn.softmax))
model.summary()
正则化
正则化器允许在优化过程中对层的参数或层的激活函数情况进行惩罚, 并且神经网络优化的损失函数的惩罚项也可以使用
惩罚是以层为对象进行的。具体的 API 因层而异, 但 Dense, Conv1D, Conv2D 和 Conv3D 这些层具有统一的 API
Regularizers 的使用方法
- [class] keras.regularizers.Regularizer
- [instance]
kernel_regularizer
param - [instance]
bias_regularizer
param - [instance]
activity_regularizer
param
- [instance]
可用的 Regularizers
- keras.regularizers.l1(0.)
- keras.regularizers.l2(0.)
- keras.regularizers.l1_l2(l1 = 0.01, l2 = 0.01)
自定义的 Regularizer
约束
constraints
模块的函数允许在优化期间对网络参数设置约束(例如非负性)
约束是以层为对象进行的。具体的 API 因层而异, 但 Dense, Conv1D, Conv2D 和 Conv3D 这些层具有统一的 API
Constraints 的使用方法
kernel_constraint
参数bias_constraint
参数
可用的 Constraints
tf.keras.constraints.MaxNorm(max_value = 2, axis = 0)
- 最大范数权值约束
tf.keras.constraints.NonNeg()
- 权重非负的约束
tf.keras.constraints.UnitNorm()
- 映射到每个隐藏单元的权值的约束, 使其具有单位范数
tf.keras.constraints.MinMaxNorm(minvalue = 0, maxvalue = 1.0, rate = 1.0, axis = 0)
- 最小/最大范数权值约束: 映射到每个隐藏单元的权值的约束, 使其范数在上下界之间