Transformer位置编码图解
在语言中,单词的顺序及其在句子中的位置非常重要。 如果重新排列单词,整个句子的意思可能会发生变化。 在实施 NLP 解决方案时,循环神经网络具有处理序列顺序的内置机制。 然而,transformer 模型不使用递归或卷积,而是将每个数据点视为独立于其他数据点。 因此,位置信息被明确地添加到模型中,以保留有关句子中单词顺序的信息。 位置编码是一种方案,通过它可以维护序列中对象顺序的知识。
在本教程中,我们将简化 Vaswani 等人在这篇非凡论文 Attention Is All You Need 中使用的符号。 完成本教程后,你将了解:
- 什么是位置编码,为什么它很重要
- Transformer中的位置编码
- 使用 NumPy 在 Python 中编码和可视化位置编码矩阵
让我们开始吧。
1、什么是位置编码?
位置编码描述了序列中实体的位置或位置,以便为每个位置分配一个唯一的表示。 不使用单个数字(例如索引值)来表示项在转换器模型中的位置的原因有很多。 对于长序列,索引的幅度可能会变大。 如果将索引值规范化为介于 0 和 1 之间,则可能会为可变长度序列带来问题,因为它们的规范化方式不同。
Transformers 使用智能位置编码方案,其中每个位置/索引都映射到一个向量。 因此,位置编码层的输出是一个矩阵,其中矩阵的每一行代表序列中的一个编码对象与其位置信息相加。 下图显示了仅对位置信息进行编码的矩阵示例。
2、快速回顾三角函数
这是对正弦函数的快速回顾; 你可以等效地使用余弦函数。 函数的取值范围是 [-1,+1]。 该波形的频率是一秒内完成的周期数。 波长是波形重复自身的距离。 不同波形的波长和频率如下所示:
3、Transformer中的位置编码层
让我们直接进入这个主题。
假设你有一个长度为L的输入序列,要计算第K个元素的位置编码。位置编码由不同频率的正弦和余弦函数给出:
这里:
- k:对象在输入序列中的位置,0<=k<L/2
- d: 输出嵌入空间的维度
- P(k,j): 位置函数,用于映射输入序列中k处的元素到位置矩阵的(k,j)处
- n:用户定义的标量,由 Attention Is All You Need 的作者设置为 10,000。
- i: 用于映射到列索引,0<=i<d/2,单个值i映射到正弦和余弦函数
在上面的表达式中,你可以看到偶数位置对应正弦函数,奇数位置对应余弦函数。
4、位置编码示例
为了理解上面的表达式,让我们以 n=100 和 d=4 的短语“I am a robot”为例。 下表显示了该短语的位置编码矩阵。 事实上,位置编码矩阵对于任何 n=100 和 d=4 的四字母短语都是相同的。
5、从头实现位置编码矩阵
这是使用 NumPy 实现位置编码的简短 Python 代码。 简化了代码,以便更容易理解位置编码。
import numpy as np
import matplotlib.pyplot as plt
def getPositionEncoding(seq_len, d, n=10000):
P = np.zeros((seq_len, d))
for k in range(seq_len):
for i in np.arange(int(d/2)):
denominator = np.power(n, 2*i/d)
P[k, 2*i] = np.sin(k/denominator)
P[k, 2*i+1] = np.cos(k/denominator)
return P
P = getPositionEncoding(seq_len=4, d=4, n=100)
print(P)
输出如下:
[[ 0. 1. 0. 1. ]
[ 0.84147098 0.54030231 0.09983342 0.99500417]
[ 0.90929743 -0.41614684 0.19866933 0.98006658]
[ 0.14112001 -0.9899925 0.29552021 0.95533649]]
6、理解位置编码矩阵
要理解位置编码,让我们从查看 n=10,000 和 d=512 的不同位置的正弦波开始。
def plotSinusoid(k, d=512, n=10000):
x = np.arange(0, 100, 1)
denominator = np.power(n, 2*x/d)
y = np.sin(k/denominator)
plt.plot(x, y)
plt.title('k = ' + str(k))
fig = plt.figure(figsize=(15, 4))
for i in range(4):
plt.subplot(141 + i)
plotSinusoid(i*4)
下图是上面代码的输出:
可以看到每个位置对应于不同的正弦曲线,它将单个位置编码为向量。 如果仔细观察位置编码函数,你会发现固定i时对应的波长:
因此,正弦曲线的波长形成几何级数。 位置编码方案具有许多优点。
- 正弦和余弦函数的值在 [-1, 1] 内,这使位置编码矩阵的值保持在归一化范围内。
- 由于每个位置的正弦曲线都不同,因此你可以采用独特的方式对每个位置进行编码。
- 有一种方法可以测量或量化不同位置之间的相似性,从而使你能够对单词的相对位置进行编码。
7、可视化位置矩阵
让我们可视化更大值的位置矩阵。 使用 matplotlib 库中的 matshow()
方法。 如原始论文中所做的那样设置 n=10,000,将得到以下结果:
P = getPositionEncoding(seq_len=100, d=512, n=10000)
cax = plt.matshow(P)
plt.gcf().colorbar(cax)
8、位置编码层的最终输出是什么?
位置编码层将位置向量与单词编码相加,并为后续层输出该矩阵。 整个过程如下图所示。
原文链接:A Gentle Introduction to Positional Encoding in Transformer Models, Part 1
BimAnt翻译整理,转载请标明出处