字节的M3-Agent
当前的多模态Agents在实时处理视觉和听觉输入方面已有一定能力,但面临一个限制:长期记忆能力的缺失。
具体而言,现有方法在处理长视频流时面临三大挑战:
- 身份识别混乱:基于语言描述的记忆(如"穿红衣服的男人")在长时程视频中容易产生歧义和混淆
- 关键细节遗忘:视觉和听觉细节在文本摘要过程中丢失,跨模态关联难以建立
- 知识无法沉淀:智能体无法从具体事件中提炼抽象知识(如"Alice喜欢早晨喝咖啡")
当前的多模态Agents在实时处理视觉和听觉输入方面已有一定能力,但面临一个限制:长期记忆能力的缺失。
具体而言,现有方法在处理长视频流时面临三大挑战:
标准的 PreNorm 残差连接通过恒等映射为梯度提供高速公路,使深层网络的训练成为可能,post-norm & pre-norm。但残差连接同时定义了信息在深度方向上的聚合方式。
展开递推公式可见,第 \(l\) 层的输入实际上是前面所有层输出的等权累加:
腾讯优图提出的Training-Free Group Relative Policy Optimization(Training-Free GRPO)方法,用8-18美元和100条样本,让671B参数的DeepSeek-V3.1-Terminus在AIME数学竞赛任务上获得提升,超过微调的32B模型。
Muon的全称是MomentUm Orthogonalized by Newton-schulz。
对于Transformer模型,大部分待优化的参数都是以矩阵的形式存在。
原文:《Learning from Teaching Regularization: Generalizable Correlations Should be Easy to Imitate》
最近阿里通义Lab发布了WebSailor模型,顾名思义,这是一个专门优化「上网冲浪能力」的模型。而在WebSailor之前,他们已经发布过WebWalker和WebDancer。
(下一个模型会叫什么呢,WebPilot或者WebAstronaut?)
整合一下agent常用的评测数据集。(虽然评测数据集很重要,但是谨记Goodhart's law,迷信测试指标也不可取。)
| 数据集 | 语言 | 难度 | 数量 | 模态 | 领域 | 评测方式 |
|---|---|---|---|---|---|---|
| GAIA | 英文 | 高 | 166dev+300test | 多模态 | 涵盖个人日常任务,科学问题,以及通用信息查询 | 可自动化 |
| BrowseComp | 英文 | 高 | 1266 | 文本 | 多领域 | 可自动化 |
| BrowseComp-ZH | 中文 | 高 | 289 | 文本 | 11个领域 | 可自动化 |
| HLE | 英文 | 高 | 2700+ | 13%多模态问题 | 数学、人文科学、自然科学等数十个不同的学科 | 可自动化 |
| GPQA | 英语 | 中 | 448道多选题 | 文本 | 生物学、物理学和化学 | 可自动化 |
| ScholarSearch | 英文 | 中 | 223 | 文本 | 覆盖Science & Engineering和Social Sciences & Humanities两大门类,共15个细分学科 | 可自动化 |
LLM加上深度思考之后,能够处理更为复杂的任务。但是深度思考的耗时长、成本高,并且不是所有输入都需要深度思考。
因此,一个思路是让模型根据输入的特性,使用不同的思考方式(无思考、短思考、长思考)。
看下最近两篇关于Agent开发经验的文章。
来自Devin开发团队:https://cognition.ai/blog/dont-build-multi-agents#a-theory-of-building-long-running-agents
MetaGPT的开发团队就是搞OpenManus的团队。
MetaGPT项目做得很早,23年就开始搞multi-agent了。MetaGPT主要是想通过多智能体的协作提升代码能力。做法上,大致上来说就是把一个软件团队所需的角色,比如产品经理、项目经理、架构师、开发工程师、测试工程师等都用LLM给角色扮演出来。不同的LLM角色和人类团队一样相互合作,共同开发项目:
上次在《DeepResearch的报告生成方法》(https://mp.weixin.qq.com/s/tVmAPk6-ZTQCY0_aMmWT-g)中讲了生成长篇图文report的方法,这里梳理一下目前从RAG到DeepSearch的一些经验。
ChatGPT发布后不久,我们就在实际使用中发现了纯LLM模型的局限性和RAG的重要性,并开始做了一些尝试。那时对我们来说,RAG的价值主要有两个:
【本文已在同名 微信公众号 / 知乎 / 个人博客linsight.cn 上线】
这篇文章主要从一个搞数据和训练策略的LLM算法工程师角度总结一下之前用到的训练框架相关知识,包括优化器、精度和混合精度训练和DP、ZeRO的相关内容。
【本文已在同名 微信公众号 / 知乎 / 个人博客linsight.cn 上线】
简单读一下这篇:《Cognitive Behaviors that Enable Self-Improving Reasoners, or, Four Habits of Highly Effective STaRs》