实际测量|经过8次反复测试，美团推出开源实证“反思”模型 – 新京报 – 吃瓜网在线吃瓜：每日大赛-吃瓜爆料，等你来参与！

在

每日更新

新京报贝壳财经讯（记者陈伟晨）1月16日，美团龙猫官方微信消息透露，LongCat-Flash-Thinking-2601已开源，作为LongCat-Flash-Thinking模型的改进版本。据团队介绍，新模型在Agent搜索、Agent工具使用、TIR（工具交互推理）等核心评估基准中达到了开源模型的SOTA（state of the art）水平。该团队表示，该模型在泛化工具调用的能力方面具有明显的优势。对于依赖于工具调用的随机和复杂任务，其性能优于 Claude-Opus-4.5-Thinking，可以显着降低在现实场景中适应和训练新工具的成本。同时，新模型支持“重新思考”模式，可以同时激活八个“大脑”来执行任务。新京报贝壳财经记者走进美团龙猫实测，选择“深度思考”模式，写道：“2010年的冬天是冷冬还是暖冬？”页面上写着：“接下来，同时用多种想法进行深入思考。”每个思考者的答案都是独立给出的，最终将这些答案整合成一个更全面的结论。”该页面提供了八个想法的分析。2010年冬季应该是指2010年12月至2011年2月，但思考者#7错误地指出2010年冬季是“2009年12月至2010年2月”。根据国家气候中心的标准，冬季平均气温必须比正常温度低至少0.5摄氏度才能达到思考者3和8提出了不同意见，认为总体情况不符合标准。系统的最终结论是，2010年冬季是“暖冬和隆冬”的结合体，但由于拉尼娜现象较强，冷空气活动频繁。气温没有达到0.5摄氏度的严格标准，权威机构根据该地区的异常天气和严寒特征，认为今年是寒冬。这一现象反映了全球变暖背景下极端天气事件的复杂性。记者提问：“请用100字概括一下罗永浩锤子科技崩溃的原因。”系统分析的结果，除了字数要求外，1号人认为“内部混乱、策略不稳定”，2号人认为“缺乏管理经验”，3号人认为“融资困难”，4号人强调“供应链”，5号人强调“跨界、创业”和“营销方面研发投入过多”，6号人认为“营销成本不可控”，提到的 6 号和 7 号人。 “可以思考者#8提到了“缺乏商业运作”、“热爱商业”和“信任”。系统比较了八个想法后，我们发现锤子科技崩盘的核心在于资金链断裂。根本原因在于：产品价格过高、销量过低、过度重视设计和营销而忽视供应链管理和成本控制、市场竞争激烈、战略不稳定，创始人罗记者发现，永浩的理想主义与商业脱节。现实中，缺乏跨界管理的经验，最终难以为继。预计2025年春节前后，各大AI模型将逐步开始实现“深度思考”功能。目前，领先的AI模型的“深度思考”结果并不完全准确，可能会回答错误或产生虚幻的结果。相当于系统独立思考了八次并回顾其结果。关于新模型的技术思路，LongCat团队解释说，传统的智能体往往只在几个简单的模拟环境中进行训练，这会产生问题。这个问题就像一个只在射击场训练的士兵一样。它变成了一个真正的“战场”，我可能会失去视野。基于“环境增强+多环境强化学习”核心技术，团队为模型打造了多元化的“高强度训练场”，构建了多套高质量的训练环境。每个环境中集成了 60 多个工具，形成密集的依赖关系图和复杂的联合，以支持最复杂的任务场景。实验还表明，训练环境越丰富，模型泛化到未知场景的能力就越强。此外，LongCat团队专注于特定的扩展ns 到其本地强化学习基础设施，同时保持其原有的高效异步训练能力。这使得多环境智能体大规模稳定并行训练成为可能，通过平衡多环境任务并根据训练难度和进度智能分配计算能力，最大限度地提高训练效率和资源利用率。团队还从复杂性和多样性两个维度严密管理训练任务，并拥有专门的数据库和优化解决方案，以消除模型“偏差”和训练差距。该团队还指出，现实世界的代理环境充满不确定性，AP“噪音”问题，例如失败的 I-call、返回的异常信息和不完整的观测数据，很可能导致模型决策错误。为了实现这一目标，团队在训练数据过程中主动注入多种类型的噪声，模拟API调用失败、返回错误信息等场景贤者和缺失数据，并利用课程学习在训练过程中逐渐增加噪音的类型和强度。这类似于教初学者骑自行车。首先让您的孩子在平坦的道路上进行练习，随着他们的技能成熟，逐渐增加路面的复杂性。岳彩舟、穆湘桐的评述

[db:tag]

发表回复取消回复

作者

京津冀三省启动医药转型及产业推广创新大赛_新京报

空间算力关键共性技术“宣示接待”项目揭晓-新京报

国家植物园桃花配郁金香，春暖花开迎游人-新京报

京津冀三省启动医药转型及产业推广创新大赛_新京报

空间算力关键共性技术“宣示接待”项目揭晓-新京报

国家植物园桃花配郁金香，春暖花开迎游人-新京报

发表回复 取消回复

作者

相关文章

发表回复取消回复