logo

【Paper】LTSF-Linear

王哲峰 / 2024-02-27


目录

论文简介

历史研究和瓶颈

基于 Transformer 的长时间序列预测模型:

论文贡献

问题定义

时间序列预测问题主要形式是:已知前 $t$ 时间的特征,然后预测未来一段时间的结果。 如果需要预测的时间很长,被称之为长时间序列预测

Transformer 前提假设是成对元素之间有语义相关性,self-attention 机制本质是元素置换不变, 建模时序关系能力很大程度上取决于与输入标记相关联的位置编码。 时序数据基本上没有点对点的语义相关性,需要模型能提取连续点之间的时序关系。 Time Series Transformer 通过位置编码以及序列编码提供部分顺序信息, 但是由于置换不变自注意力机制的存在必然存在时序信息丢失问题。

Time Series Transformer 框架:

img

模型定义

LTSF-Linear

img

DLinear

NLinear

部分数据集的训练数据和测试数据存在分布偏移(下图中 b),无法使用训练集的均值和方差进行归一化。

NLinear 将输入序列每一个值减去该序列最后一个值,然后输入序列过完线性层后加回被减去的值得到最后预测结果。

img

实验结果

定量分析

img

定性分析

img

Transformer 类模型进一步分析

  1. 能否从长序列中提取时序信息?
    • 历史窗口(look-back window)越长(输入信息越多),预测效果应该越好。
    • 下图 x 轴对应不同历史窗口长度,可以看到随着输入信息变多, LTSF-Linear 方法预测结果越来越准,但是大部分 Transformer 模型 MSE 并没有太多变化, 作者猜测可能模型过拟合噪音而不能获得时序信息。 img
  2. 从长序列预测可以学到什么?
    • 历史窗口中的动态时间会显著影响短期预测的精度, 而长期预测仅依赖模型是否很好捕捉趋势和周期性。 即预测时间跨度越长,历史窗口本身影响越小。
    • 预测未来 720 步,下面两种取历史窗口方法:
      • Close 前 96 步输入
      • Far 前 192 步到 前 97 步输入
    • FEDformer 和 Autoformer 在两种方法下预测效果几乎相同, 说明模型只能从相邻时间序列中捕获到类似的时序信息。 img
  3. self-attention scheme 是否有效?
    • 对 Informer 结构进行消融实验,下表从左到右网络结构越来越简单,然后效果基本上逐步提升。 看起来注意力机制和其他复杂模块在 LTSF 上没有正向效果。
      • Att.-Linear 用 linear layer 替换 self-attention layer
      • Embed+Linear 再去除其他模块 img
  4. 模型可以保留时序信息吗?
    • self-attention 本质上不考虑空间关系(无视元素的位置信息) permutation-invariant,通过 positional and temporal embedding 模型还是丢失时间信息。
    • 三种数据处理方式
      • Shuf 输入数据顺序全部打乱
      • Half-ex 输入数据分成前后两部分,交换这两部分的顺序。
    • 两个实验表明 Transformers 不能很好保留时序信息
      • 在 Exchange 汇率数据集,三个 Tranformer 模型在这三种数据处理方式下, 预测结果的 MSE 基本上都都接近,可能仅保留有限的时间关系,但是最终过拟合了。 Linear 模型自然建模顺序并且使用更少的参数避免过度拟合。
      • 在 ETH1 数据集,FEDformer 建模时考虑时间序列偏差,提出了数据中明显的时间信息, 所以在 shuf 组 MSE 下降非常快。Informer 根本没有建模这方面信息。 img
  5. 不同 embedding 策略的作用?
    • 依次删除模型中的 Position embedding、global time stamp embedding 和同时删除这两个 temebdding。
    • Informer 的预测误差在没有位置嵌入(wo/Pos.)的情况下大幅增加。 在没有时间戳嵌入(wo/Temp.)的情况下,随着预测长度的增加,Informer的性能将逐渐受损。
    • 论文中给的原因没有看懂:Informer uses a single time step for each token, it is necessary to introduce temporal information in tokens.
    • Autoformer 和 FEDformer 通过一系列时间戳去编码时间信息,所以删除 pos 后效果可能变得更好。
    • Autoformer 去除时间 embedding 后效果明显变差。
    • FEDformer 通过 frequency-enhanced module 使模型有 temporal inductive bias,删除 pos 和 temp 影响不是很大。 img
  6. 训练数据大小是现在模型的限制因素?
    • 问题:是不是训练数据量太少导致 Transformer 类模型表现差?
    • 在交通数据上用 Ori 17544*0.7 hour 数据和 Short 365*24=8760 hour 数据对比:
      • 基本上是训练数据小的时候,预测误差小。证明训练数据不是限制 Transformer 类模型表现的原因。
      • 导致这种现象的原因可能是 short 对应全年数据,有更清晰的时间特征趋势。 img
  7. 性能真的是长时间预测任务中优先级最高的事情吗?
    • 两个问题:Transformer 模型的推理时间和内存消耗是否增加?现在的 GPU 显存能否满足任务和模型需求。
    • 下图可以看到大部分 Transformer 模型参数量和原始 Tranformer 没有太大区别,但是推理时间可能超过原来……
      • 另外在通过 96 步预测 720 步任务上,原始 Tranformer 的参数 GPU 也放得下…… img

总结

资料