Why Weight Tying

根据papers with code，有两篇论文独立提出了这个方法

我们可以将输入从token到最终输出分为几个阶段

Weight tying 的想法在于

通过token id得到one-hot编码，在 embedding matrix C, H 选择对应的embedding，表明embedding matrix中每一行代表着一个token的embedding

h_{in} = U^{T} h_{o n e h o t}

注意embedding matrix这里进行了转置

pre-softmax层进行投影时，可以理解为 embedding $h_{in}$ 与 pre-softmax matrix中的每一行计算内积，判断这个 embedding 与哪一个token(每一行)更相近

h_{p re} = V h_{in}

也就是两个矩阵，形状相同，每一行都“代表”一个token的embedding，它们在语义上是相近的
故而 weight tying 是一定的道理

注意两个层的bias是独立的

White Box