Informer论文-深圳市維司達科技有限公司

Informer: Beyond Efficient Transformer for Long Sequence Time-Series Forecasting

Informer是对Transformer的改造，分为Encoder和Decoder两部分。Informer相对Transformer的主要改进如下：

针对Self-attention计算复杂度高的问题：提出Prob Sparse Self-attention，筛选出Active query，降低计算复杂度；
针对Attention Stack内存过高的问题：提出Self-attention Distilling，减少维度和网络参数量；
原始Transformer的Decoder是step-by-step逐步解码，运行很慢：提出生成式Decoder，一次性生成长序列预测。

ProbSparse 自注意力机制

ProbSparse 自注意力机制 (ProbSparse self-attention mechanism)用于解决传统自注意力机制的二次方计算和内存复杂度问题，该机制的核心在于识别并只关注那些"主导性"的点积对，从而实现稀疏化。

Informer使用Kullback-Leibler (KL) 散度来衡量均匀分布和注意力概率分布之间的距离，目的是识别那些”激活“或”重要“的查询（Query）, 即查询稀疏性度量。

注意力分布的稀疏性：通过定性评估发现，自注意力机制中学习到的注意力分数形成了长尾分布（long tail distribution）, 这意味着少数点积对贡献了主要的注意力，而其他点积对产生的注意力是微不足道的。

区分注意力的稀疏性：由于注意力机制得出的结论是：第i个查询qiq_iqi对所有键K的注意力被定义为一个概率分布p(kj∣qi)p(k_j∣q_i)p(kj∣qi)； **”非重要查询特征“指的是，如果p(kj∣qi)p(k_j∣q_i)p(kj∣qi)接近均匀分布q(kj∣qi)=1/LKq(k_j∣q_i)=1/L_Kq(kj∣qi)=1/LK，则自注意力机制的结果将变成值得求和。”重要特征“**指的是，主导性得点积对会促使相应的注意力概率分布远离均匀分布。

KL散度：利用KL散度，即使用概率分布ppp和均匀分布qqq之间的相似性来区分重要查询。

Decoder: 一次性生成长序列输出

Step1: 构造输入

设Encoder输入为：XencX_{enc}Xenc=32 * 96 * 7, 那么Decoder的输入为：Xdec=32∗72∗7X_{dec}=32*72*7Xdec=32∗72∗7（32个batch，72个时间点的数据，每个时间点的数据对应7维的特征）。XdecX_{dec}Xdec构造方式如下：

（1）选取被预测序列之前的一小段数据作为start_token：从XencX_{enc}Xenc的后半段开始取，比如从XencX_{enc}Xenc的时间点49 ~ 时间点96 取共48个时间点的数据。

（2）需要预测的数据用0 mask掉：从时间点97 ~ 时间点120 取共24个时间点的数据，当然这部分的数据的目标变量是未知且待预测的

Step2: 带掩码的概率稀疏自注意力机制

（1）用Decoder的输入做mask attention，在decoder输入中，当前时间点的qqq只和当前时间点之前的kkk做attention，相当于KTQK^TQKTQ矩阵中只有kiTqj(i<=j)!=0k^T_iq_j(i<=j)!=0kiTqj(i<=j)!=0，矩阵其余部分为0。

（2）Lazy query对应的输出ojo_joj不再用所有时间点的vvv的均值填充，而是用当前时间点之间的所有vvv的累加值填充。

（3）交叉注意力机制Cross Self Attention, K、V是Encoder的输出，Q来自上一层的输出

39、Linux Shell 高级特性与技巧解析

Linux Shell 高级特性与技巧解析 1. 数组相关操作在处理数组时，有时需要对数组元素的输出进行排序。由于数组元素扩展后的结果通常是无序的，所以可以将循环的整个输出通过管道传递给 sort 命令来实现排序。另外，使用 ${!array[@]} 扩展可以得到数组索引列表，而不是数…

李华

Java设计模式系列 - 基本概念

基本思想设计模式是软件开发中经过反复验证的、解决特定问题的优秀解决方案模板。在Java开发中，设计模式不仅是一种编程技巧，更是提高代码质量、可维护性和可扩展性的重要工具。使用设计模式的主要目的是为了重用代码、让代码更容易被他人理解、保证代码…

李华

非专业也能看懂的AI大模型工作原理！（非常详细）从零基础到精通，一篇就够了！

本文全面介绍AI大语言模型工作流程，从文本输入预处理到输出生成全过程。涵盖分词嵌入、Transformer架构、自注意力机制、位置编码及长文本外推等技术，并结合DeepSeek V3实例解析模型如何将语言转换为数学矩阵并生成回答。同时提供丰富的工程实践指导&…

李华

前端锚点定位，零基础入门到精通，收藏这篇就够了

一背景知识: 1.1 #号的作用 #代表网页中的一个位置。其右面的字符，就是该位置的标识符。比如，http://www.example.com/index.html#print 就代表网页index.html的print位置。浏览器读取这个URL后，会自动将print位置滚动至可视区域。为网页…

李华

AI应用架构师避坑指南：虚拟协作架构中的依赖问题

AI应用架构师避坑指南：虚拟协作架构中的依赖问题——从“木桶效应”到“弹性网络”的进化之路关键词虚拟协作架构、依赖管理、服务耦合、故障隔离、弹性设计、AI应用架构、断路器模式摘要在AI应用规模化落地的今天，虚拟协作架构（由多个分布式服务/模块协同完成复杂任…

李华

公司局域网访问外网的原理

公司局域网访问外网的原理在现代企业环境中，如何让内部员工既能访问公司内部资源，又能安全地访问互联网是一个重要的网络架构问题。本文将以通俗易懂的方式介绍公司局域网访问外网的基本原理和常见配置方式。基本网络架构大多数公司的网络架构通常…

李华