我至今还是无法理解,为什么纯粹的通过语言训练的模型,能发展出通用大模型机制。这中间靠所谓的“涌现”机制,是没法解释的。
预训练的时候LLM看到了的许多相似的例子,这些例子给出了相似的过程或者流程。LLM学到了这些过程,再次看到相似的输入,就能做推理。
简单来说,语言模型通过统计语言中的模式、学习语言表达的逻辑结构,加上高效的网络结构,展现出强大的推理能力。虽然本质上仍是一种复杂的概率计算,但足以模拟很多真实的推理过程。
现在模型还继续是复杂的概率计算
大模型的推理能力并非真正的“理解”或“逻辑分析”,而更像是“对语言中推理模式的高度拟合”。从某种意义上说,模型的推理能力更接近于一种高度复杂的统计预测。
概率论
大模型学习了很多知识,知道内部的相互逻辑。你提问的时候会基于之前的知识进行推理
因为你把人的智能想的太高级,实际上很多都是重复的模式
大语言模型是基于神经网络理论做出来的。
神经网络本质是个仿真函数y=f(x)。即给出任意输入条件x,通过函数计算,都能给出仿真结果y。只不过这个仿真函数 f(x)巨复杂无比,没任何人能看懂和解释这个函数。它本身不具备任何推理能力,只是对人类语言符号的一个模拟。它只是把提问的人类语言符号,用固定编码规则替换数字,因而方便转换成数字 x,然后对函数计算结果数字 y ,根据前面提到的固定规则,反逆转成文字。一问一答就完成了。