正如论文一作所说,「新架构 Titans 既比 Transformer 跟古代线性 RNN 更无效,也比 GPT-4 等超年夜型模子机能更强。」终于,在 2017 年推出影响 AI 行业长达 8 年的 Transformer 架构之后,谷歌带来了全新的架构 Titans。此次,谷歌的重点是将推理范畴十分主要的测试时(test-time)盘算用在了影象(memory)层面。在谈到推出 Titans 的初志时,论文一作 Ali Behrouz 表现,「留神力机制始终是年夜少数 LLM 停顿的主要构成局部,不外它无奈扩大到长高低文。因而,Titans 应运而出,它成为了一种同时具有留神力机制跟元高低文影象的构造,能够在测试时进修影象。该架构能够将高低文窗口扩大到 200 万 tokens。」这象征着,谷歌 Transformer 迎来了它的「继任者」。多年来,研讨职员始终在普遍探索怎样无效天时用轮回模子跟留神力机制,此中轮回模子旨在将数据紧缩到牢固巨细的影象(称为隐状况)中,而留神力机制容许处置全部高低文窗口,捕获全部 token 的直接依附。不外,更正确的依附建模每每随同着二次本钱,招致模子只能处置牢固长度的高低文。因而,谷歌提出了一种新的临时神经影象模块(neural memory module),它可能进修影象汗青高低文,并辅助留神力机制在应用从前已久信息的同时处置以后高低文。成果标明,这种神经影象存在疾速并行化练习的上风,同时还能坚持疾速推理。从影象的角度来看,谷歌以为留神力机制固然受限于高低文但能够更正确地建模依附关联,因而能够起到短期影象的感化;而神经影象可能对数据停止影象,起到了临时、更长久的影象感化。基于这两个模块,谷歌引入了一个全新的系列架构 —— Titans,经由过程三种变体无效地将影象融会到该体系架构中,它们分辨是影象作为高低文(Memory as a Context,MAC)、影象作为门(Memory as a Gate,MAG)跟影象作为层(Memory as a Layer,MAL)。在言语建模、知识推理、基因组学跟时序猜测义务上的试验成果标明,Titans 架构比 Transformer 跟比年来的古代线性轮回模子更无效。别的,在海底捞针(needle-in-haystack)中,Titans 架构可能无效地扩大到超越 200 万 tokens 的高低文窗口,而且比基准模子实现了更高的正确性。论文题目:Titans: Learning to Memorize at Test Time论文地点:https://arxiv.org/pdf/2501.00663v1别的,论文作者之一 Peilin Zhong 为谷歌 NYC 算法与优化团队的研讨迷信家,2021 年参加谷歌。他本科结业于清华姚班,博士结业于哥伦比亚年夜学。现在,曾经有人搞出了有关 Titans 架构的非官方实现,感兴致的读者能够去看一下。GitHub 地点:https://github.com/lucidrains/titans-pytorch进修测试时影象谷歌具体先容了临时神经影象模块,它成为了一种能够在测试时进修影象的元模子。临时影象为了计划一个临时神经影象模块,咱们须要模子可能将从前汗青的形象编码到其参数中。因而,一个简略的思绪是练习神经收集并冀望它可能记着本人的练习数据,但是影象多少乎始终是神经收集中令人头疼的景象,它限度了模子的泛化才能,还激发隐衷成绩,因而招致测试时机能欠安。基于此,谷歌以为须要一个在线元模子来进修怎样在测试时影象或忘却数据。在这种设置下,模子进修一个可能影象的函数,但不会过拟合练习数据,从而在测试时实现更好的泛化机能。进修进程跟不测指标(Learning Process and Surprise Metric)。练习临时影象的要害思绪是将练习视为在线进修成绩,此中将从前信息 x_1, …, x_t-1 紧缩到临时神经影象模块中。人类每每可能记着背叛预期(令人惊奇)的变乱,受此启示,模子不测能够简略界说为它绝对于输入的梯度。梯度越年夜,输入数据与从前数据的偏向就越年夜。因而,应用这个不测分数,能够将影象更新如下:这一不测指标能够招致在严重不测时辰之后呈现主要信息缺掉。从人类影象的角度来看,即便一个变乱令人难忘,但它可能不会在长时光内连续让咱们觉得惊奇。为了改良这一景象,谷歌将不测指标剖析为了(1)从前不测,它权衡近来从前的不测水平;(2)刹时不测,它权衡传入数据的不测。这些不测指标基于一个丧失函数,它就是咱们的影象在测试时进修充任的目的。也就是说,影象模块是一个元模子,它基于丧失函数来进修一个函数。在本文中,谷歌则专一于遐想影象,目标是将从前的数据存储为键(keys)跟值(values)对。相似于 Transformer,在给定 x_t 的情形下,谷歌应用两个线性层将 x_t 投影到键跟值中:接上去,谷歌盼望影象模块能够进修键跟值之间的关系,为此将丧失界说如下:忘记机制(Forgetting Mechanism)。在处置十分年夜的序列(比方百万 tokens)时,治理哪些从前信息应当被忘记十分主要,即便应用深度或许十分年夜的矩阵值影象时也是如斯。因而,谷歌应用了一种自顺应忘记机制,容许影象忘却不再须要的信息,从而更好地治理无限的影象容量。也就是说,给定下一个 token x_t,谷歌将更新规矩做如下修正:影象架构(Memory Architecture)。谷歌重点将存在 L_M≥1 层的简略 MLP 作为临时影象架构,抉择它们的起因在于盼望可能更好地鼓励临时影象计划以及将其融入架构的方式。谷歌表现,本文的架构开拓了一个新的研讨偏向,有助于计划更无效且高效影象数据的神经架构。检索影象(Retrieving a Memory)。在探究怎样计划跟练习一个能够在测试时进修影象的临时影象模块之后,剩下的要害成绩就是怎样从影象中检索信息?谷歌仅仅应用了不更新权重的前向通报(即推理)来检索与查问绝对应的影象。在情势上,给定一个输入 x_t,谷歌应用线性层 W_Q 来投影输入,即 q_t = x_tW_Q,并经由过程以下公式从影象 y_t 中检索响应(或有效)的信息。并行化临时影象练习实践上,临时影象模块的练习须要FLOPS,此中 N 为序列长度。不外在实际中,咱们须要并行化练习进程并充足应用 TPU、GPU 等硬件减速器,同时须要张量化该进程并应用更多矩阵乘法(matmuls)。接上去,谷歌表现,应用小批量梯度降落、数据进修率跟权重衰减来盘算内轮回权重的方法能够从新来表现,以便它只应用矩阵乘法跟乞降(sums)。这里将序列拆分为巨细为 b ≥ 1 的块,并将小批量梯度降落写做:别的,谷歌说明了 M_t = W_t 为线性时的情形。对 N_p ≥ 2 的 MLP,进程相似。应用本文的丧失函数能够失掉如下:最后,谷歌扩大这一表现,以便能够兼并动量项。在存在动量的块式梯度降落中,假如察看动量项则能够失掉如下:作为函数块的参数(Parameters as the Function of Chunks)。谷歌不让参数 a_t、θ_t 跟 η_t 依附于输入,而是让它们成为函数块。只管得到了表白才能,但能够辅助更快地练习。在这种情形下,谷歌在每个块中对每一个 a、θ 跟 η 都应用了雷同的值。在试验中,谷歌将这些参数作为了 token 的函数,并表现,这种简化(即作为块函数)可能是将来任务感兴致的处所,以便以更高效的方法练习更年夜的模子。下图 1 展现了怎样并行并在应用矩阵乘法时实现神经影象练习。怎样融会影象?接上去须要处理的一个主要成绩是:怎样无效且高效地将神经影象融会到深度进修架构中?从影象的角度来看,Transformer 中的 K 跟 V 矩阵对能够说明为遐想影象块。因为它们对依附关联的准确建模以及无限的高低文窗口,它们能够被用作短期影象模块,以处置以后高低文窗口巨细。另一方面,神经影象可能一直从数据中进修并存储在其权重中,因此能够施展临时影象的感化。谷歌经由过程三个差别的 Titans 变体往返答以上成绩。影象作为高低文(Memory as a Context,MAC)Titans 的第一个变体 MAC 的架构计划如下图 2 所示,将影象作为以后信息的高低文。也就是说,给定一个长序列,起首将序列分红牢固巨细的片断 S^(