DeepMind：为什么GPT能为你写诗？

【新智元导读】最近，DEEPMIND的研究人员发表论文称，大型TRANSFORMER模型之所以处理自然语言的表现独佳，是由于人类语言的特殊统计学质性最适合。

然而，同样的优异表现却很难在其他数据类型上重现。

为此，DEEPMIND在进行了一番研究之后发现：既有TRANSFORMER架构特征的贡献，自然语言本身特色的优势也不容忽视。

根据DEEPMIND的新研究论文「TRANSFORMER模型中数据分布属性驱动的小样本学习」，这可能是因为人类语言的特殊统计学质性，让神经网络模型可以容易地预测并处理自然语言数据中的意外变化。

从统计学的角度来看，自然语言具有「非统一」的特质，比如有一词可以代表多种事物的「多义词」，和相同发音代表不同字眼的同音异义字现象。

例如前段时间将「淦」特意混同于「干」的网络中文语言现象，和「干」字本身的丰富意涵。

类似的语言性质在DEEPMIND新论文中有被关注到。

研究人员的思路是从探索类似GPT-3的大模型如何完成「小样本学习」开始，也就是厘清GPT们如何解决它们所面临的各种未被预训练过的任务。

例如，GPT-3可以回答有多个候选项的选择题，而不需要预先明确编程来回答这种形式的问题，只需由人类用户输入选择题和正确答案的配对例子来提示就行。

论文作者们称，这可以代表「基于TRANSFORMER的大型语言处理模型能够胜任小样本学习/上下文学习，而不需要被明确地为之预训练好。」

然后研究人员进一步诠释：「我们假设自然语言的特定分布属性，可能会是这种现象的诱因。」

研究人员推测，大型语言模型程序们的这种表现就像另一种机器学习模式，也就是元学习。

DEEPMIND近年来一直在探索的元学习程序，其功能是能够对跨越不同数据集的数据模式进行建模。这类程序经过训练，不是为单一的数据分布建模，而是为数据集的分布建模。

这里的关键是「不同数据集」的概念。按研究人员的猜测，自然语言的所有「非统一」性，如多义词和使用频率相对极低的词，这些奇怪特征-中的每一个都类似于独立的数据集分布。

事实上，研究人员认为，自然语言就像是介于有规律的受监督训练数据、和有大量不同性质数据的元学习之间的东西。

在监督训练中，词汇等训练项目确实会重复出现，而且项目与标签的映射―如自然语言中的词义―在某种程度上是固定的。

同时，长尾分布确定了自然语言中存在许多罕见的词汇，它们在不同的语境窗口中有规律重复出现的频率很低，但在语境窗口中可能是出现多次突发的。

所以可以把自然语言中罕见词、同音词、同形词、多义词，看作是完全不固定的数据分布中，项目-标签映射的弱化版本。这些映射在每一个训练回合中都会发生变化，在少数的元学习训练中使用。

为了测试这一假设，研究人员采取了一种有创意的方法：他们并不从AI模型的语言任务训练开始。相反，他们训练一个TRANSFORMER神经网络来解决一个视觉任务。

OMNIGLOT是一个为1623个手写字符字形分配正确的分类标签的挑战程序，由纽约大学、卡内基梅隆大学和麻省理工学院的学者于2016年推出。

在此次DEEPMIND的研究中，首先需要将手写字符的分类标签随机打乱，把OMNIGLOT挑战改变为ONE-SHOT学习任务，这样神经网络就能在各个「情节」中进行学习。

研究人员表示，与标签在所有序列中都是固定的训练类型不同的是，这两个图像类别的标签在每个序列中都是随机重新分配的。

由于标签在每个序列中都是随机重新分配的，所以模型必须使用当前序列中的上下文，以便对所查询图像进行标签预测（一个双向的分类问题）。

除非另有说明，小样本学习总是在训练中从未出现过的保留图像类别上进行评估。

以这种方式，研究人员将字符这一视觉数据改变得体现出自然语言的非统一性。

在模型训练中，研究人员将OMNIGLOT图像和标签置于各种被自然语言启发的分布质性的序列中。

例如，研究人员逐渐增加可以分配给一个特定字符的类型标签的数量，以此使字符接近多义词的质性。

在评估模型学习结果时，研究人员再评估这些特性是否会能提高模型的小样本学习性能。

研究人员发现，随着他们将某一字符的标签数量成倍增加，神经网络在进行小样本学习时表现更好。

「增加分配给每个词的标签数量，这个模拟多义词的因素的增长，也会增加小样本学习的成功几率。换言之，将有规律概况性难题的难度提高，反而让小样本学习的性能体现得更强大。」

作为对照组，研究人员测试了「一个原始无修饰的递归神经网络」，并发现这样的神经网络从来没有达到小样本学习的能力。

「与递归模型相比，TRANSFORMER类模型在小样本学习上体现出显著更高的优势」。

研究人员的结论是，数据的特性、诸如自然语言的长尾分布，和神经网络的性质、诸如TRANSFORMER类模型的架构特点，都在小样本学习中有重要作用。不只偏具一边，而是二者兼具。

作者列举了一些未来可以探索的途径。其中之一是与人类认知的联系，因为从婴儿期开始，人类就表现出小样本学习的能力。

例如，婴儿能迅速学习到自然语言的统计学分布特性。这些分布特征是可以帮助婴儿获得快速学习的能力，或者作为以后学习任务的预训练起作用？

而在其他如视觉等感官经验领域，类似的非统一性分布性质，是否也能在发育中发挥作用？

其实可以看出，此项研究并非一项只注重语言的研究。其实研究的目的是通过重现OMNIGLOT图像视觉数据的非统一性，来模仿自然语言的应有统计特性。

研究人员没有解释从一种模态到另一种模态的转换，是否对此项研究的意义有任何影响。相反，研究人员称他们期望将研究工作扩展到自然语言的更多方面：

「如何与强化学习与监督学习损失互动？在复制语言建模和自然语言的其他方面的实验中，这些训练结果会有什么不同？」

需要注意的是，作者还在对论文进行修改和完善，刚才的这些应该只是一个初步的结论。

相关推荐