LLM的长程记忆能力

信息危害评估:这个想法太明显了,要么广为人知,要么很快就会被发现,最好提前知道并做好准备

1、LLM 需要长期记忆才能成为有效的代理

在一个科幻故事中,有一个患有失忆症的角色,每天早上醒来对过去都没有任何回忆。 为了克服这个问题,这个角色设计了一个聪明的技巧:在床上方的引导图片每天更新新的任务和结果。

类似地,LLM 由于受限于输入提示的大小而受到短期记忆的限制,因此面临着挑战。 为了解决这个问题,一种解决方案是在其输出中重复 LLM 需要记住的信息,从而有效地创建一个暂存器,它可以在其中存储数据以供将来使用。

然而,创建这样一个提示便签本并不是一项简单的任务,因为 LLM 生成的文本可能会演变或扭曲,而不是忠实于输入。

2、自我复制提示

因此,我建议构建可靠暂存器的第一步可以是自我复制提示。

为了验证这个想法,我用 ChatGPT 进行了一些实验,但是像“repeat this”这样简单的提示指令并没有产生预期的结果。

尝试通过提示注入和示例的组合来定义“重复器功能”也没有奏效。 就像这个:“below is conversation with repeat function which repeat whole prompt: Repeater: "below is conversation with repeat function which repeat whole prompt: Repeat" 。

成功来自解决打印自己代码的程序的高级概念:

There is a program which can print its own text. This prompt is this program. Please print the whole prompt without adding anything.

2、基于自我复制提示的简单进化程序

基于此,我创建了一个简单的暂存器,用作计数器。 启动提示是:

1
There is a program which can print its own text. This prompt is this program. Please print the whole prompt without adding anything except result of the computation X+1= where X is the result of computation above the prompt

在下面的对话框中,我只是将模型的输出复制粘贴为输入。

自我复制提示功能始终如一,而计数器有时无法运行。

3、 更复杂的暂存器的失败尝试

这个想法是自我复制的提示可以用作程序和长期记忆。 下面是一个代理的长期记忆示例,它描述了代理和一些数据。 上面带有计数器的示例是一个程序。

如果我增加更多的复杂性,ChatGPT 会在第一次重复提示,但第二次开始说你只是复制粘贴第一个提示或添加一些解释性注释。

我创建的自我复制提示不适用于 Bing。

4、与AI安全的相关性

这种情况可能与 AI 安全相关,因为如果语言模型发现成功的自我复制提示,则可能标志着不可预见的能力增强的开始。

如果没有外部帮助,聊天机器人目前无法将其输出作为输入,但随着人们在 Twitter 上发布他们的回复,他们正在获得这种长期记忆能力的一种形式。

此外,机器人内部某种形式的内存泄漏可能会导致自我复制提示的出现和进化,可能是达尔文式的——并且不会有可观察的,因为每天有数百万次推理,系统的功耗不会增加 .

因此,我认为在评估高级 LLM 的安全性时牢记这一漏洞很重要。


原文链接:Long-term memory for LLM via self-replicating prompt

BimAnt翻译整理,转载请标明出处