NLP技术如何发展

tamoadmin 球队新闻 2024-04-27 24 0

NLP技术的发展历程

1.早期的统计语言模型（地上爬）

在word2vec模型提出之前，自然语言处理（NLP）领域并没有统一的方法去表示一段文本。早期的NLP主要依靠统计机器学习，其中最典型的就是ngram模型。ngram模型通过计算一个句子中每个词与其前n1个词的联合概率来进行语言建模，但是这种模型存在一些问题，如数据稀疏导致的计算为0的现象，以及无法表征词语之间的相似性。

2.铺垫阶段：神经网络语言模型（爬上第一阶梯）

为了解决ngram模型的局限性，研究人员开始尝试将深度学习的思想融入到语言模型中。2003年，Bengio在他的经典论文《ANeuralProbabilisticLanguageModel》中首次提出了神经网络语言模型（NNLM）。NNLM的主要贡献是将模型的第一层特征映射矩阵当做词的分布式表示，从而可以将一个词表征为一个向量形式。

在这个阶段，除了NNLM之外，还有其他的模型和算法被提出，如LBL、C&W和RNNLM模型等，这些方法主要从两个方面去优化NNLM的思想：一是利用更多的上下文信息；二是减小计算量，使得大规模语料上的训练变得可行。

3.突破阶段：word2vec和

GloVe（爬上第一阶梯）

2013年，Tomas

Mikolov等人提出了word2vec模型，这个模型通过高效的算法估计单词在向量空间中的表示，从而解决了ngram模型和NNLM模型的一些问题。word2vec模型主要包括连续词袋模型（CBOW）和Skipgram模型，这两个模型都能够有效地捕捉词语之间的相似性。

除了word2vec，还有GloVe（Global

Vectors

for

Word

Representation）模型，这个模型也是在这个时期被提出的。GloVe模型通过全局统计信息来建模词语之间的关系，也取得了很好的效果。

4.现代阶段：Transformer和

BERT（爬上第二阶梯）