新京报贝壳财经讯(记者 陈伟晨)1月16日,美团龙猫官方微信消息透露,LongCat-Flash-Thinking-2601已开源,作为LongCat-Flash-Thinking模型的改进版本。据团队介绍,新模型在Agent搜索、Agent工具使用、TIR(工具交互推理)等核心评估基准中达到了开源模型的SOTA(state of the art)水平。该团队表示,该模型在泛化工具调用的能力方面具有明显的优势。对于依赖于工具调用的随机和复杂任务,其性能优于 Claude-Opus-4.5-Thinking,可以显着降低在现实场景中适应和训练新工具的成本。同时,新模型支持“重新思考”模式,可以同时激活八个“大脑”来执行任务。新京报贝壳财经记者走进美团龙猫实测,选择“深度思考”模式,写道:“2010年的冬天是冷冬还是暖冬?”页面上写着:“接下来,同时用多种想法进行深入思考。”每个思考者的答案都是独立给出的,最终将这些答案整合成一个更全面的结论。”该页面提供了八个想法的分析。2010年冬季应该是指2010年12月至2011年2月,但思考者#7错误地指出2010年冬季是“2009年12月至2010年2月”。根据国家气候中心的标准,冬季平均气温必须比正常温度低至少0.5摄氏度才能达到思考者3和8提出了不同意见,认为总体情况不符合标准。系统的最终结论是,2010年冬季是“暖冬和隆冬”的结合体,但由于拉尼娜现象较强,冷空气活动频繁。气温没有达到0.5摄氏度的严格标准,权威机构根据该地区的异常天气和严寒特征,认为今年是寒冬。这一现象反映了全球变暖背景下极端天气事件的复杂性。记者提问:“请用100字概括一下罗永浩锤子科技崩溃的原因。”系统分析的结果,除了字数要求外,1号人认为“内部混乱、策略不稳定”,2号人认为“缺乏管理经验”,3号人认为“融资困难”,4号人强调“供应链”,5号人强调“跨界、创业”和“营销方面研发投入过多”,6号人认为“营销成本不可控”,提到的 6 号和 7 号人。 “可以思考者#8提到了“缺乏商业运作”、“热爱商业”和“信任”。系统比较了八个想法后,我们发现锤子科技崩盘的核心在于资金链断裂。根本原因在于:产品价格过高、销量过低、过度重视设计和营销而忽视供应链管理和成本控制、市场竞争激烈、战略不稳定,创始人罗记者发现,永浩的理想主义与商业脱节。现实中,缺乏跨界管理的经验,最终难以为继。预计2025年春节前后,各大AI模型将逐步开始实现“深度思考”功能。目前,领先的AI模型的“深度思考”结果并不完全准确,可能会回答错误或产生虚幻的结果。相当于系统独立思考了八次并回顾其结果。关于新模型的技术思路,LongCat团队解释说,传统的智能体往往只在几个简单的模拟环境中进行训练,这会产生问题。这个问题就像一个只在射击场训练的士兵一样。它变成了一个真正的“战场”,我可能会失去视野。基于“环境增强+多环境强化学习”核心技术,团队为模型打造了多元化的“高强度训练场”,构建了多套高质量的训练环境。每个环境中集成了 60 多个工具,形成密集的依赖关系图和复杂的联合,以支持最复杂的任务场景。实验还表明,训练环境越丰富,模型泛化到未知场景的能力就越强。此外,LongCat团队专注于特定的扩展ns 到其本地强化学习基础设施,同时保持其原有的高效异步训练能力。这使得多环境智能体大规模稳定并行训练成为可能,通过平衡多环境任务并根据训练难度和进度智能分配计算能力,最大限度地提高训练效率和资源利用率。团队还从复杂性和多样性两个维度严密管理训练任务,并拥有专门的数据库和优化解决方案,以消除模型“偏差”和训练差距。该团队还指出,现实世界的代理环境充满不确定性,AP“噪音”问题,例如失败的 I-call、返回的异常信息和不完整的观测数据,很可能导致模型决策错误。为了实现这一目标,团队在训练数据过程中主动注入多种类型的噪声,模拟API调用失败、返回错误信息等场景贤者和缺失数据,并利用课程学习在训练过程中逐渐增加噪音的类型和强度。这类似于教初学者骑自行车。首先让您的孩子在平坦的道路上进行练习,随着他们的技能成熟,逐渐增加路面的复杂性。岳彩舟、穆湘桐的评述