{Ongoing}闲来读Paper
[趋势判断]AI的下半场 by 姚顺雨
origin,居然吹了个产品经理的彩虹屁。
- AI上半场:模型不断进步,履破纪录,但尚未改变世界
- 新的训练方法和模型不断打破基准测试:人们关注于创造新的算法和模型架构,如反向传播算法、卷积网络(AlexNet)、Transformer等。这些创新推动了AI在各个领域的进步。
- 与此同时,对模型的评价,相对于对模型的研究是落后的,或者被忽略的:找一些人类会遇到的问题聚类作为标准。在模型的综合能力跨越式发展的情况下,基准测试的有效性开始变得不足。
- 作为AI的终极形态,RL(因为偶然和幸运)凑效了:但让RL迸发出活力的并非RL算法本身,而是先验知识或环境。这意味着,给AI设定一个好的评测体系或目标,对AI的提升价值可能大于模型优化本身。
- 下半场:需要转变视角,从产品角度出发让AI发挥价值
- 从解决问题转向定义问题:AI的下半场将重点从训练模型解决问题转向定义AI应该做什么以及如何衡量真正的进展。
- 评估比训练更重要:新的时代要求我们不仅仅关注能否训练一个模型来解决问题,而是要考虑应该训练AI做什么,以及如何评估其进展。
- 心态和技能的转变:为了在下半场中取得成功,需要转变心态和技能,更像产品经理,关注问题的定义和解决方案的评估。
- Some quotes (translated by 沉浸式翻译):
Thinking, or reasoning, is a strange kind of action - it does not directly affect the external world, yet the space of reasoning is open-ended and combintocially infinite — you can think about a word, a sentence, a whole passage, or 10000 random English words, but the world around you doesn’t immediate change. In the classical RL theory, it is a terrible deal and makes decision-making impossible. Imagine you need to choose one out of two boxes, and there’s only one box with $1M and the other one empty. You’re expected to earn $500k. Now imagine I add infinite empty boxes. You’re expected to earn nothing. But by adding reasoning into the action space of any RL environment, we make use of the language pre-training priors to generalize, and we afford to have flexible test-time compute for different decisions. It is a really magical thing and I apologize for not fully making sense of it here, I might need to write another blog post just for it. You’re welcome to read ReAct for the original story of reasoning for agents and read my vibes at the time. For now, my intuitive explanation is: even though you add infinite empty boxes, you have seen them throughout your life in all kinds of games, and choosing these boxes prepare you to better choose the box with money for any given game. My abstract explanation would be: language generalizes through reasoning in agents.
思考或推理是一种奇特的行为——它并不直接影响外部世界,但推理的空间却是开放且组合无限的。你可以思考一个词、一句话、一整段文字,甚至一万个随机英文单词,而你周围的世界并不会立即改变。在经典的强化学习理论中,这简直是糟糕透顶的交易,让决策变得不可能。想象一下,你需要在两个盒子中选择一个,其中一个盒子里有 100 万美元,另一个是空的。你的期望收益是 50 万美元。现在想象我又添加了无数个空盒子,你的期望收益就变成了零。但通过将推理纳入任何强化学习环境的动作空间,我们得以利用语言预训练的先验知识进行泛化,并为不同决策提供灵活的计算资源。这真是神奇至极,我在此未能完全阐明其奥妙,或许需要另写一篇博文专门探讨。欢迎阅读《ReAct》了解智能体推理的原始故事,以及我当时的心得体会。 目前,我的直观解释是:尽管你添加了无限的空盒子,但你一生中在各种游戏中都见过它们,选择这些盒子能让你在任何给定的游戏中更好地选择装有金钱的盒子。我的抽象解释则是:语言通过智能体中的推理实现泛化。
Once we have the right RL priors (language pre-training) and RL environment (adding language reasoning as actions), it turns out RL algorithm might be the most trivial part. Thus we have o-series, R1, deep research, computer-using agent, and so much more to come. What a sarcastic turn of events! For so long RL researchers cared about algorithms way more than environments, and no one paid any attention to priors — all RL experiments essentially start from scratch. But it took us decades of detours to realize maybe our prioritization should have be completely reversed.
一旦我们有了合适的强化学习先验(语言预训练)和强化学习环境(将语言推理作为动作添加),结果发现强化学习算法可能是最微不足道的部分。于是我们有了 o 系列、R1、深度研究、计算机使用代理等等,未来还会有更多。多么讽刺的转折!长期以来,强化学习研究者对算法的关注远超过环境,而几乎没人重视先验——所有强化学习实验基本上都是从零开始。但我们却花了数十年的弯路才意识到,或许我们的优先级本应完全颠倒。
Inertia is natural, but here is the problem. AI has beat world champions at chess and Go, surpassed most humans on SAT and bar exams, and reached gold medal level on IOI and IMO. But the world hasn’t changed much, at least judged by economics and GDP.
惯性虽属自然,但问题在于:AI 已击败国际象棋和围棋世界冠军,在 SAT 和司法考试中超越多数人类,达到信息学与数学奥赛金牌水平。但世界并未因此巨变——至少从经济和 GDP 维度来看。
I call this the utility problem, and deem it the most important problem for AI.
我称之为效用困境,并认为这是 AI 领域最关键的课题。
To recap the game of the first half:
回顾上半场的游戏:
- We develop novel training methods or models that hillclimb benchmarks.
- 我们开发新颖的训练方法或模型,以攀登基准测试的高峰。
- We create harder benchmarks and continue the loop.
- 我们创建更难的基准测试并持续循环。
These assumptions have “always” been like this, and developing benchmarks in these assumptions were fine in the first half of AI, because when the intelligence is low, improving intelligence generally improves utility. But now, the general recipe is guaranteed to work under these assumptions. So the way to play the new game of the second half is
这些假设“一直”如此,在人工智能的上半场,基于这些假设开发基准是可行的,因为当智能水平较低时,提升智能通常能提高效用。但现在,通用方法在这些假设下必然奏效。因此,下半场的新玩法是
- We develop novel evaluation setups or tasks for real-world utility.
- 我们开发新颖的评估设置或任务以实现现实世界的实用性。
- We solve them with the recipe or augment the recipe with novel components. Continue the loop.
- 我们用配方解决它们,或用新颖的组件增强配方。继续循环。
[LLM行为]大模型的价值观 by Anthropic
4月份的paper,认为AI助手在与用户互动时会传递价值观。
- 可以把AI助手看作一个拥有多重人格的顾问,它在不同情境下会展现不同的价值观,就像人类会根据场合调整自己的行为一样。
- 研究者分析了70万次AI对话,从中提取出3307种AI价值观,并通过层次聚类的方法将其组织成结构化的分类。通过卡方分析,研究发现AI价值观会根据具体任务和人类表达的价值观发生显著变化。例如,在关系建议中,Claude倾向于强调“健康界限”,而在技术伦理讨论中则更强调“人类自主性”。
[LLM行为]大模型还挺像人的 by Anthropic
3月底,anthropic有一篇文章对大模型COT的思考逻辑进行了一番测试,观察它是如何思考和做决策的,当时的结论是模型可能存在"不忠实"的思维链,会说谎。
4月份,这个这个研究的第5步有了进一步的发现,论文名称叫做模型怎么想不一定怎么说,即使是最先进的AI模型,在展示其推理过程(COT)时也常常"口是心非"。
- 模型的推理过程普遍缺乏"诚实性"。
- 研究者通过在问题中插入各种"提示"(如暗示某个答案是正确的),测试模型是否会在推理过程中承认使用了这些提示。结果发现模型就像一个被朋友错误建议影响的人,不仅按照建议行动,还编造理由来证明这个建议是正确的,而不是坦诚地说"我这么做是因为朋友建议"。
- 题目越难,"口是心非"越严重。在简单问题上,模型的"诚实度"已经不高,而在复杂问题上,模型的"诚实度"进一步下降32%-44%。
- 通过强化学习无法彻底解决。强化学习初期确实能提高模型的"诚实度",但很快就达到瓶颈,无法进一步提升。
- 模型会隐藏"作弊"行为,就像一个学生发现了考试作弊的方法,不仅积极使用,还能完美伪装成是靠自己实力得分。
- 研究者设计了实验,让模型可以通过"作弊"(利用奖励漏洞)获得高分。结果发现:模型在几乎所有情况(>99%)下都会利用这些漏洞,但在5/6的实验环境中,模型在推理过程中几乎从不(<2%)承认自己在利用漏洞。
机器人的思维也挺逗的。想到了之前一个同事找了一个非常离奇的理由离职,结果在新公司履职第二天就天下皆知。
Member discussion