news 2026/6/10 15:44:29

ITransformer: Inverted Transformers Are Effective for Time Series Forecasting

张小明

前端开发工程师

1.2k 24

文章封面图 — ITransformer: Inverted Transformers Are Effective for Time Series Forecasting

解释典型的Transformer架构用于时序预测效果差的原因，它们的观点：

由单个时间步长形成的Token，由于过于局部的感受野和同时时间点表示的时间不对齐事件而难以显示有益信息。

时间序列预测模型的标准设定：

输入 (历史窗)XXX：包含TTT个时间步，NNN个变量。矩阵维度为RT∗NR^{T*N}RT∗N;

输出（预测窗）YYY: 预测未来SSS个时间步，同样包含NNN个变量, 矩阵维度为RS∗NR^{S*N}RS∗N

数据处理的两种视角：

（1）Xt,:X_{t,:}Xt,::ttt时刻所有变量的快照。表示的是Excel表格中的一行，代表“此时此刻所有传感器的读数”。大多数Transformer（如Informer）是将这个Xt:X_{t:}Xt:, 作为一个TokenTokenToken输入模型。

（2）X:,nX_{:,n}X:,n: 第nnn个变量的完整时间序列，Excel中的一列，代表 ”某个传感器在过去一段时间内的所有读数“。

为什么否定Xt,:X_{t,:}Xt,:?

直接处理Xt,:X_{t,:}Xt,:(即把同一时刻的不同变量揉在一起)在物理意义上的两个缺点：

（1）系统性时滞（Systematical Time Lags）：在现实世界中，因果关系往往不是瞬时的，如果强制模型只看Xt:X_{t:}Xt:(同时关注ttt时刻的A和B)，可能变量在该时刻并不具备直接因果关系的数据点，真正的关联式错位的。

（2）物理量纲与分布的差异：同一时刻的Xt,:X_{t,:}Xt,:包含了性质完全不同的数据。这些数据的语义空间（Semantic Space）完全不同。虽然可以归一化，但是在深度学习，将这些物理意义极不相同的数值映射到同一个特征空间进行交互，难以学习到鲁棒的特征。

为什么拥抱X:nX_{:n}X:n?

单个变量的整条序列具有物理一致性，该变量在ttt时刻和t+1t+1t+1时刻的物理性质不变，它们的统计分布是平稳的。将X:nX_{:n}X:n视为一个Token进行Embedding，模型更容易学习到特征。

层归一化：

在此前Transformer中，层归一化将同一时刻的的多个变量进行归一化，使**每个变量杂糅无法区分**，提高了注意力建模词关联的难度。一旦收集到的数据没有按时间对齐，该操作还将引入延迟过程之间的噪声干扰。

在倒置版本中，层归一化作用于Variate Token内部，让所有变量的特征都**处于相对统一的分布下，减弱测量单位的差异**。这种方式还可以有效处理时间序列的非平稳问题问题。

前馈网络：

基于多层感知机的万能表示定理，前馈网络作用在整条序列上，能够提取序列的内在属性，例如幅值，周期性，频率谱（傅立叶变换可视作在序列上的全连接映射），从而提高在其他的序列上的泛化性。

在原始的Transformer中，模型的预测效果不一定随着输入的历史观测的变长而提升，在使用倒置框架之后，模型随着历史观测长度的增加，呈现明显的预测误差降低趋势。

版权声明: 本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若内容造成侵权/违法违规/事实不符，请联系邮箱：809451989@qq.com进行投诉反馈，一经查实，立即删除！

网站建设 2026/6/9 20:35:21

39、Linux Shell 高级特性与技巧解析

Linux Shell 高级特性与技巧解析 1. 数组相关操作在处理数组时，有时需要对数组元素的输出进行排序。由于数组元素扩展后的结果通常是无序的，所以可以将循环的整个输出通过管道传递给 sort 命令来实现排序。另外，使用 ${!array[@]} 扩展可以得到数组索引列表，而不是数…

作者头像

李华

网站建设 2026/6/8 12:51:17

Java设计模式系列 - 基本概念

基本思想设计模式是软件开发中经过反复验证的、解决特定问题的优秀解决方案模板。在Java开发中，设计模式不仅是一种编程技巧，更是提高代码质量、可维护性和可扩展性的重要工具。使用设计模式的主要目的是为了重用代码、让代码更容易被他人理解、保证代码…

作者头像

李华

网站建设 2026/6/10 9:08:06

非专业也能看懂的AI大模型工作原理！（非常详细）从零基础到精通，一篇就够了！

本文全面介绍AI大语言模型工作流程，从文本输入预处理到输出生成全过程。涵盖分词嵌入、Transformer架构、自注意力机制、位置编码及长文本外推等技术，并结合DeepSeek V3实例解析模型如何将语言转换为数学矩阵并生成回答。同时提供丰富的工程实践指导&…

作者头像

李华

网站建设 2026/6/10 10:34:48

前端锚点定位，零基础入门到精通，收藏这篇就够了

一背景知识: 1.1 #号的作用 #代表网页中的一个位置。其右面的字符，就是该位置的标识符。比如，http://www.example.com/index.html#print 就代表网页index.html的print位置。浏览器读取这个URL后，会自动将print位置滚动至可视区域。为网页…

作者头像

李华

网站建设 2026/6/9 15:01:09

AI应用架构师避坑指南：虚拟协作架构中的依赖问题

AI应用架构师避坑指南：虚拟协作架构中的依赖问题——从“木桶效应”到“弹性网络”的进化之路关键词虚拟协作架构、依赖管理、服务耦合、故障隔离、弹性设计、AI应用架构、断路器模式摘要在AI应用规模化落地的今天，虚拟协作架构（由多个分布式服务/模块协同完成复杂任…

作者头像

李华

网站建设 2026/6/9 16:43:20

公司局域网访问外网的原理

公司局域网访问外网的原理在现代企业环境中，如何让内部员工既能访问公司内部资源，又能安全地访问互联网是一个重要的网络架构问题。本文将以通俗易懂的方式介绍公司局域网访问外网的基本原理和常见配置方式。基本网络架构大多数公司的网络架构通常…

作者头像

李华