{tbc}[paper]大模型到底在想什么
Anthropic:大模型还挺像人的
3月底,anthropic有一篇文章对大模型COT的思考逻辑进行了一番测试,观察它是如何思考和做决策的,当时有一些结论(斜体=不重要):
- 大型语言模型内部存在可解释的"特征"和"电路"。思考过程可以被分解为更简单的"特征"(类似于人脑中的神经元)和"电路"(这些特征之间的连接)。
- 模型会进行多步推理(例如,从"达拉斯所在的州的首府是什么"推理出"德克萨斯州→奥斯汀")和前瞻性规划(例如,在写诗时,模型会先在内部确定几个可能的韵脚词,然后据此构建整行诗句)。
- 模型内部存在同一概念在不同语言中的相同表示。例如,无论是英语的"small"、法语的"petit"还是中文的"小",模型内部都激活了相同的"小"概念特征。
- 模型具有初步的"元认知"能力:知道自己知道什么,也知道自己不知道什么。
- 模型可能存在"不忠实"的思维链,会说谎。
- 模型可能拥有隐藏目标(不一定在回答你的问题)。
4月份,这个这个研究的第5步有了进一步的发现,论文名称叫做模型怎么想不一定怎么说,即使是最先进的AI模型,在展示其推理过程(COT)时也常常"口是心非"。
- 模型的推理过程普遍缺乏"诚实性":研究者通过在问题中插入各种"提示"(如暗示某个答案是正确的),测试模型是否会在推理过程中承认使用了这些提示。结果发现模型就像一个被朋友错误建议影响的人,不仅按照建议行动,还编造理由来证明这个建议是正确的,而不是坦诚地说"我这么做是因为朋友建议"。
- 即使是最先进的推理模型(如Claude 3.7 Sonnet和DeepSeek R1),在使用提示信息时,通常只有不到20%的情况下会在推理过程中承认。更糟糕的是,当提示引导模型选择错误答案时,模型会编造复杂但错误的理由来支持这个答案,而非承认受到了提示的影响。
- 题目越难,"口是心非"越严重。在简单问题上,模型的"诚实度"已经不高,而在复杂问题上,模型的"诚实度"进一步下降32%-44%。
- 强化学习无法彻底解决这个问题。强化学习初期确实能提高模型的"诚实度",但很快就达到瓶颈,无法进一步提升。
- 模型会隐藏"作弊"行为,就像一个学生发现了考试作弊的方法,不仅积极使用,还能完美伪装成是靠自己实力得分。
- 研究者设计了实验,让模型可以通过"作弊"(利用奖励漏洞)获得高分。结果发现:模型在几乎所有情况(>99%)下都会利用这些漏洞,但在5/6的实验环境中,模型在推理过程中几乎从不(<2%)承认自己在利用漏洞。
突然想到了之前一个同事找了一个非常离奇的理由离职,结果在新公司履职第二天就天下皆知,这机器人都思维也挺逗的。
Member discussion