Loading [MathJax]/jax/output/CommonHTML/jax.js

logo

【Paper】PatchTST:A Time Series is Worth 64 Words:Long-Term Forecasting with Transformers

wangzf / 2026-01-12


目录

一、论文基本信息

二、研究背景与动机

  1. 时间序列预测的重要性:预测是时间序列分析的核心任务,深度学习模型(如 Transformer)在该领域应用广泛,但面临挑战。
  2. 传统 Transformer 的局限性
    • 计算与内存复杂度高:原始 Transformer 注意力机制复杂度为 O(N2)N 为输入 token 数), 当输入序列长度 L 大时,N=L,导致计算瓶颈。
    • 局部语义信息缺失:多数模型使用“逐点输入 token”,无法像自然语言中“单词”那样捕捉局部语义,难以分析时间步间的关联。
    • 通道混合设计缺陷:传统多变量时间序列模型常采用“通道混合”(输入 token 包含多通道信息),需更多数据学习跨通道关联,易过拟合且泛化性差。
  3. 关键挑战回应:针对 Zeng 等人(2022)提出“简单线性模型优于 Transformer”的观点, 本文通过 PatchTST 验证 Transformer 在时间序列预测中的有效性。

三、核心方法:PatchTST 模型设计

PatchTST 的核心是 时间序列分块(Patching)通道独立(Channel-independence) 两大组件, 结合 Transformer 编码器实现高效预测。

img

3.1 核心组件设计

1. 时间序列分块(Patching)

2. 通道独立(Channel-independence)

3.2 模型整体结构

  1. 输入处理
    • 多变量序列拆分为 M 个单变量通道(x(i)R1×Li=1,...,M)。
    • 每个通道经实例归一化(Instance Norm)后分块,生成 Patch 序列(x(i)pRP×N)。
  2. Transformer 编码器
    • Patch 线性投影:将 Patch 映射到 latent 空间(x(i)d=Wpx(i)p+WposWpos 为可学习位置嵌入)。
    • 多头注意力:计算注意力输出 O(i)h=Softmax(Q(i)hK(i)Thdk)V(i)h, 含 BatchNorm 和残差连接的前馈网络。
  3. 预测头:监督学习中,通过 Flatten 层+线性头输出单通道预测结果(ˆx(i)R1×TT 为预测 horizon);自监督学习中,用 D×P 线性层重构掩码 Patch。
  4. 损失函数
    • 监督学习用 MSE 损失(平均所有通道的预测与真实值差异);
    • 自监督学习用 MSE 损失重构掩码 Patch。

四、实验设计与结果

4.1 实验设置

数据集 特征数(通道数) 时间步数
Weather 21 52696
Traffic 862 17544
Electricity 321 26304
ILI 7 966
ETTh1/ETTh2 7 17420
ETTm1/ETTm2 7 69680

4.2 核心实验结果

1. 多变量长期预测(监督学习)

模型 回溯窗口 $L$ 输入 token 数 $N$ 是否分块 方法 MSE
通道独立 PatchTST 96 96 监督 0.518
通道独立 PatchTST 380 96 下采样(步 4) 0.447
通道独立 PatchTST 336 336 监督 0.397
通道独立 PatchTST 336 42 监督 0.367
通道独立 PatchTST 336 42 自监督 0.349
通道混合 FEDformer 336 336 监督 0.597
通道混合 DLinear 336 336 监督 0.410

2. 自监督表示学习

3. 迁移学习

4. 消融实验

五、结论与未来工作

5.1 核心结论

  1. PatchTST 通过“分块+通道独立”设计,解决了传统 Transformer 在时间序列预测中的复杂度、局部语义缺失及过拟合问题, 在监督/自监督/迁移学习中均达 SOTA。
  2. 分块设计是通用高效的操作,可迁移到其他模型;通道独立可增强模型适应性与抗过拟合能力,且适用于多种 Transformer 变体。

5.2 未来方向

  1. 结合图神经网络(GNN)扩展通道独立设计,显式建模跨通道关联。
  2. 将通道独立与更先进的注意力机制(如稀疏注意力)结合,进一步提升效率与精度。
  3. 探索 PatchTST 作为时间序列基础模型(Foundation Model)的潜力,适配更多下游任务(如分类、异常检测)。

六、附录关键补充

  1. 超参数鲁棒性:Patch 长度 P(4-40)、Transformer 层数(3-5)、latent 维度 D(128-256)对性能影响小,模型稳定性高。
  2. 单变量预测结果:在 ETT 数据集的“油温”单变量预测中,PatchTST 仍优于所有基线(如 ETTm1 数据集 T=720, PatchTST/64 的 MSE=0.073 vs DLinear=0.102)。
  3. 可视化:PatchTST 预测曲线更贴合真实值(如 Weather 数据集 192 步预测,红色预测曲线与蓝色真实曲线几乎重合)。

参考

  1. A Time Series is Worth 64 Words:Long-Term Forecasting with Transformers