深度时序模型研究的三个阶段

wangzf / 2026-01-18

知乎问题：时间序列预测还能再进步吗？

在实现了市面上几个主要的模型例如 PatchTST，FITS，TimesNet，iTransformer 之后，感觉 23,24 年的时间序列模型进步都不大。我个人看法是，模型的输入并不能完全代表所有影响结果的因素，因此一分不差地预测未来发生的值是不可能的。会不会已经到极限了

回答：

深度时序模型的研究主要经历了下面三个阶段，每个阶段都有大家重点关注的，想要解决的“热点问题”。

如何将序列模型应用到时序数据中（2021-2022 年）

在这个初期阶段，大家都在试图解决如何将经典的序列模型结构（比如 Transformer、RNN）结合进时序建模这一特定任务中。这一阶段的代表性工作有：Informer、Autoformer、FEDformer、Non-stationary Transformer 等。

经过这一阶段之后，大家总结到的实用技巧有：

分解建模（Autoformer）
窗口归一化（Revin，Non-stationary Transformer）

如何完成时序的令牌化 Tokenization（2023 年）

在第一阶段的时候，大家输入时序模型的还是离散的点，但是其实从深度学习 Token 构建角度来说，单个时刻的信息量还是太少了，所以需要将表征增强到成 Patch（一段序列），这样后续的建模会更加可靠，这一阶段的代表性工作有：PatchTST、Crossformer、iTransformer等。

经过这一阶段之后，大家总结到的实用技巧有：

PatchEmbedding（PatchTST、Crossformer）
VariateEmbedding（iTransformer）

多任务、多模态建模（2023-2024 年）

当第一第二阶段积累的训练技巧逐步完备之后（注意，并不是说大家贡献仅仅是一个训练技巧，如何让一个深度模型在时序数据上训练得很好是非常重要的进展），大家开始想做一些更加多样的任务，这一阶段的代表性工作有 TimesNet、Timer、Time-LLM 等。

在这一阶段，大家讨论的热点问题有“大语言模型与时序模型的关系”，“是否存在时序基础模型”。从纯技术角度来看，具体问题还有“建模的大模型应该是单变量的，还是多变量的？”， “是不是应该将大语言模型作为时序模型的主干？”。

总结

综上，我觉得题主提出的这个问题主要是针对第 1、2 两个发展阶段。从这个角度讲，如果问“是否有新的技巧出现”的话，确实这两年很少有了，很多在标准 benchmark 上的效果提升可能来自于调参或者实验方差。但是如果从第 3 阶段角度来看，我觉得时序领域还处于百家争鸣阶段，很难明确哪个技术路线是对的。

这里也宣传两篇，我们最近对于第3阶段的思考

（1）TimeXer（TimeXer: Empowering Transformers for Time Series Forecasting with Exogenous Variables）：协变量预测模型。我觉得这个“协变量预测”设置非常完美地回避了单变量预测（Channel Independent）缺少充足信息，多变量预测需要在不同变量间协调的问题。同时也解决混合大数据集内部，不同数据源变量数不一致的问题。
（2）MetaTST（Metadata Matters for Time Series: Informative Forecasting with Transformers）：使用大语言模型编码时序数据文本形态的“元信息”，从而为大规模混合数据训练模型做准备。我觉得直接使用大语言模型处理文本是非常正确的思路，因为现在还没有迹象表明大语言模型对时序非常有效，让 LLM 干它自己擅长的事情就好了。