从问题描述来看,op 其实已经认识到问题所在了。至于“哪些部分仍然要痛苦地自主思考”和“哪些细节可以放心让大模型外包”是互相影响的。
op 提问是在 2026 年 6 月底,那么在这个时间节点,如果侧重于大模型投入生产使用的角度,可以确定的这么说:
问题 2“哪些细节可以放心让大模型外包”的回答是:none ,没有任何细节能够“放心”,大模型出来的代码仍然必须经过人工 review 才能投入生产环境。当然,人工 review 的强度,看生产环境是什么、代码 bug 带来的后果有多严重决定。
从原理上也可以理解:一方面,大模型是通过输入训练数据拟合“训练”出来的,输入的训练数据并不一定是完全没有 bug 的,导致了结果也不能保证完全没 bug ,并且,确实很多领域有着大量的训练数据————受到自由软件运动和开源软件社区的影响,同时也有 CC 这种“开放知识”运动的功劳,这些给了大量的训练数据输入,但是也有更多的领域是封闭的、讲究技术保密的,没有相应的“自由”和“开放”运动,这些领域的训练数据很少,怎么保证训练结果是“好”的呢?当然我这里的表达可能比较笼统而且侧重于代码领域的表达,其它非代码也是一个意思;另一方面,大模型是概率模型,类似与“1+1=2”这种确定性的知识,作为训练数据输入之后,训练结果也不能得到 100%的“1+1=2”了,造成了大模型大量的幻觉。
因此说,在 op 提问这个时间节点上,没有任何细节能够“放心”的交给大模型。
而这就影响到了问题 1 的回答:理想的大模型,应该是人提出需求交给大模型实现。对业务、对需求的思考这个必须要由人来自主完成的,因为这个是技术与“人类世界”的接合部,AI 无法代劳,这个是省不了的。理想大模型的输出直接就能用并且的到反馈,反馈再修改业务需求,这么循环。
但由于问题 2 的影响,对于输出结果的 review (包括但不限于代码领域)这一部分也需要自主思考,人工 review 不能省略。
我自己之前在用 ChatGPT 的时候,让它生成过一份关于“安乐死合法化”的调查问卷,结果出来一看,它生成的从问题到选项设置,都是非常偏向“安乐死合法化是合理的”这个结论一头的,我们大作业小组几个人花费了很多时间进行 review 和纠偏。
综上所述,大模型能够代劳的,其实是中间过程,两头不能省。
如果说侧重于学习角度,那么问题就更要注意了:大模型的幻觉很严重,学习时候向大模型提问,必须让大模型给出它回复的依据,让它给出 reference ,之后人要点击去看。而且人对官方文档的阅读也不能省略,不能说大模型给什么就是什么。
当然,侧重学习方面大模型能够发挥的作用也更大:在你对某个需要学习的领域没有思路、没有了解的情况下,通过“每次回答都让它给出 reference”的方式,能够知道该去看哪些书籍、哪些技术文档,开头这最困难的一步能够让大模型帮助完成。
@
YYDC #10
没错,也更不是封建遗少,在双方没有过错的时候也要故意挑拨男女矛盾。