谷歌开放源码ALBERT自然语言模型

很多文章的报道都是由微观而宏观,今日小编讲给大家带来的关于谷歌开放源码ALBERT自然语言模型的资讯也不例外,希翼可以在一定的程度上开阔你们的视野!y有对谷歌开放源码ALBERT自然语言模型这篇文章感兴趣的小伙伴可以一起来看看
谷歌AI拥有开源的A Lite Bert(ALBERT),这是一种深度学习的自然语言处理(NLP)模型,使用的参数比最先进的BERT模型少89%,准确性几乎没有损失 。该模型也可以扩大,以实现新的最先进的性能在NLP基准 。

谷歌开放源码ALBERT自然语言模型


【谷歌开放源码ALBERT自然语言模型】研究小组在将提交给国际学习代表大会的一份文件中介绍了该模型 。ALBERT使用两种优化方法来减少模型的大?。呵度氩愕姆纸夂屯缫夭愕牟问蚕?。将这两种方法结合起来 , 得到了一个惟独12M参数的基线模型,与BERT的108M相比,在几个NLP基准上达到了80.1%的平均精度 , 而BERT的平均精度为82.3% 。该小组还培训了一个具有235M参数的“双超大”ALBERT模型,该模型在基准方面的表现优于具有334M参数的“大”BERT模型 。
最先进的NLP模型的最新发展来自使用“自我监督”技术对大量未标记文本数据进行预培训的大型模型 。然而,这些模型的大尺寸,有数亿个参数,给实验带来了障碍 。不仅训练时间和成本随着模型的大小而增加,而且在某种程度上,模型太大,无法训练;它们不能适应训练计算机的内存 。虽然有解决这一问题的技术,谷歌人工智能团队已经确定了在不牺牲准确性的情况下减少模型大小的方法 。有了较小的模型,研究人员可以更好地探究模型的超参数空间:
谷歌开放源码ALBERT自然语言模型


为了改进NLP的这种新方法,人们必须了解什么才干促进语言理解性能-网络的高度(即层数)、它的宽度(隐藏层表示的大?。⒆晕壹喽降难氨曜?,还是完全其他的东西?
在ALBERT的优化中,第一个是单词嵌入的因式分解 。与BERT和许多其他深度学习NLP模型一样,ALBERT是基于Transformer体系结构的..该模型的第一步是将单词转换为数字“一热”向量表示 。然后将一个热向量投影到嵌入空间中 。变压器的一个限制是嵌入空间必须具有与隐藏层的大小相同的尺寸 。将大小为V的词汇表投影到维度E的嵌入中需要VxE参数 。随着实现最先进的结果所需的大量词汇和模型维度 , 这可能需要接近十亿个参数 。通过分解嵌入,ALBERT团队首先将单词向量投影到一个较小的维度空间:128vsBERT的768 。然后将这种较小的嵌入投影到具有与隐藏层相同维数的高维空间中 。团队假设第一个投影是单词的上下文无关表示 , 而第二个投影是上下文相关表示 。
第二个优化是在网络的层上共享参数 。变压器网络层同时包含一个前馈组件和一个注意组件;ALBERT的策略是在所有层之间共享每个组件..这确实造成了大约1.5个百分点的精度损失 , 但它确实将所需参数的数量从89M减少到12M 。
?
谷歌开放源码ALBERT自然语言模型


谷歌公布了一个基于TensorFlow的ALBERT实现,以及一个英语语料库和一个中文语料库上的模型;Twitter上的用户现在询问谷歌是否计划公布一个西班牙语语料库上的模型 。在GitHub上可以获得ALBERT代码和模型 。

    猜你喜欢