我个人认为现在的大语言模型训练越来越像人类的学习,一开始,大模型训练如同自学,人类把知识一股脑交给大模型,让它自学,学到了GPT4水平,结果就数据不够,到不了GPT5。
现在,从o1开始,走向人类教育这条路,先让大模型自学一些知识,有初步解题的能力,接下来,就让大模型多做题,人类批改,让后再让大模型学习错题集,对照到现实中,就是让大模型把推理过程写出来,人类对推理过程进行评估,再把推理过程和评估过程作为数据,再交由大模型训练,如此一来,相比于自学,人教的效果突飞猛进。
这也就解释了为什么产生了o3这种在数学和代码方面远远超过人类水平的模型。
我个人认为,因为数学,代码这类,结果是非常确定的,不会有千人千面的看法。就比如说做数学题,解答的某一个步骤错了,接下来就没有正确答案,只要学习的错题越多,解题的能力也就越高,同理,大模型也是如此。
现在,我们把范围扩大到数理化,理论上,大模型学习的错题次数越多,做题能力越强,那就是说,当足够多的迭代次数后,大模型可以做解答几乎所有数学,物理,化学题,写所有机器的代码,控制所有的机械,电子设备,分析蛋白质,研发新药,解决疾病,观测宇宙,不要说小小的人类社会分配问题了……
现在,从o1开始,走向人类教育这条路,先让大模型自学一些知识,有初步解题的能力,接下来,就让大模型多做题,人类批改,让后再让大模型学习错题集,对照到现实中,就是让大模型把推理过程写出来,人类对推理过程进行评估,再把推理过程和评估过程作为数据,再交由大模型训练,如此一来,相比于自学,人教的效果突飞猛进。
这也就解释了为什么产生了o3这种在数学和代码方面远远超过人类水平的模型。
我个人认为,因为数学,代码这类,结果是非常确定的,不会有千人千面的看法。就比如说做数学题,解答的某一个步骤错了,接下来就没有正确答案,只要学习的错题越多,解题的能力也就越高,同理,大模型也是如此。
现在,我们把范围扩大到数理化,理论上,大模型学习的错题次数越多,做题能力越强,那就是说,当足够多的迭代次数后,大模型可以做解答几乎所有数学,物理,化学题,写所有机器的代码,控制所有的机械,电子设备,分析蛋白质,研发新药,解决疾病,观测宇宙,不要说小小的人类社会分配问题了……