推理过程感觉非常靠谱?推理过程也是预测后一个字符?然后总结推理过程?
核心还是概率。但是这种涌现能力产生的机理并不特别清楚。
就好像我们现在大脑是怎么产生推理能力的,也是众说纷纭。
r1是强化学习的MOE结构,有一个门控网络负责理解任务,然后不同侧重的网络解决任务,生成文字。