性与强大的类似这是自年的

rifattry7 · Post by **rifattry7** » Sat Dec 28, 2024 10:08 am

因此端到端架构实际上是在进行元学习寻找压缩上下文的最佳方式以便更好地预测下一个k也就是在「学习如何在测试时学习」。结果显示与相比-具有更好的困惑度和更少的（左）并且更好地利用了长上下文（右）。下图显示了批大小为的情况下随着上下文长度的变化每个k的前向时间（延迟）。所有模型的参数都是.（为.）。可以看到随着上下文长度的增加每个k的前向时间呈线性增长但其他两种方法的前向时间基本保持不变。在k上下文时-比更快与相当。的尴尬现实年缩放定律论文表明（的一种）无法像那样进行缩放或有效地使用长上下文。真的是这样吗？在这个项目中研究人员重新评估了图中的这些发现。

在左侧可以观察到（当今最流行的之一）的扩展以观察斯里兰卡电话号码表到与相同的问题。平均而言序列中靠后的k应该更容易预测因为它们以更多信息为条件。对来说确实如此每个k索引的平均复杂度在其k上下文中不断减少。相比之下在k后就出现了同样的情况。对于现有的来说这个结果代表了一个尴尬的现实—— 一方面（相对于）的主要优势就是它们的线性（相对于二次）复杂性。这种渐进优势实际上只会在长上下文中实现。另一方面一旦上下文足够长现有的（如）就很难真正利用额外的条件信息。长上下文的困难是层本质上的问题：与自注意力机制不同层必须将上下文压缩为固定大小的隐藏状态。

作为一种压缩启发式更新规则需要发现成千上万甚至数百万个k之间的底层结构和关系。研究人员首先观察到自监督学习可以将大量训练集压缩为等模型的权重该模型通常表现出对其训练数据之间语义联系的深刻理解而这恰恰是他们所需要的。 . 层受此启发研究人员设计了一类新的序列建模层其中隐藏状态是模型更新规则是自监督学习的一个步骤。由于更新测试序列上隐藏状态的过程相当于在测试时训练模型因此此类新层称为测试时训练层。研究人员引入两个简单的实例：-和-其中隐藏状态分别是线性模型和两层。层可以集成到任何网络架构中并进行端到端优化类似于层和自注意力。