什么是语言模型?
大家或多或少都听过 ChatGPT 是一个 LLMs,那 LLMs 是什么?
LLMs 全称是 Large Language Models,中文是大语言模型。
那么什么是语言模型?
语言模型简单说来,就是对人类的语言建立数学模型,注意,这里的关键是数学模型,语言模型是一个由数学公式构建的模型,并不是什么逻辑框架。这个认知非常重要。
最早提出语言模型的概念的是贾里尼克博士。
他是世界著名的语音识别和自然语言处理的专家,他在 IBM 实验室工作期间,提出了基于统计的语音识别的框架,这个框架结构对语音和语言处理有着深远的影响,它从根本上使得语音识别有实用的可能。在贾里尼克以前,科学家们把语音识别问题当作人工智能问题和模式匹配问题。而贾里尼克把它当成通信问题。
为何是通讯问题?为何转换成通讯问题后,就能实现语音识别?
根据香农确定的现代通讯原理,所谓的通讯,也被称为信道的编码和解码,信息源先产生原始信息,然后接收方还原一个和原始信息最接近的信息。
比如,你打电话的时候,问对方一句「你吃了晚饭了吗」,在传输前,通讯系统会对这句话进行编码,编成类似「100111101100000…」,但是传输过程中,一定会有信号损失,接收方收到的编码可能是「1001111011000…」,此时我们就没法解码回原来的句子了。
那如何解决这个问题?
我们可以把与接收到的编码「1001111011000…」类似的句子都罗列出来,可能的情况是:
- 吃了晚饭了吗
- 你吃了饭了吗
- 你吃了晚饭了吗
- 你吃了晚饭了
然后通讯系统会计算出哪一种的可能性最大,最后把它选出来。只要噪音不大,并且传输信息有冗余,那我们就能复原出原来的信息。
贾里尼克博士认为让计算机理解人类的语言,不是像教人那样教它语法,而是最好能够让计算机计算出哪一种可能的语句概率最大。
这种计算自然语言每个句子的概率的数学模型,就是语言模型。