agent调研(1)--MetaGPT,OpenManus和OWL
MetaGPT
MetaGPT的开发团队就是搞OpenManus的团队。
MetaGPT项目做得很早,23年就开始搞multi-agent了。MetaGPT主要是想通过多智能体的协作提升代码能力。做法上,大致上来说就是把一个软件团队所需的角色,比如产品经理、项目经理、架构师、开发工程师、测试工程师等都用LLM给角色扮演出来。不同的LLM角色和人类团队一样相互合作,共同开发项目:
MetaGPT的开发团队就是搞OpenManus的团队。
MetaGPT项目做得很早,23年就开始搞multi-agent了。MetaGPT主要是想通过多智能体的协作提升代码能力。做法上,大致上来说就是把一个软件团队所需的角色,比如产品经理、项目经理、架构师、开发工程师、测试工程师等都用LLM给角色扮演出来。不同的LLM角色和人类团队一样相互合作,共同开发项目:
上次在《DeepResearch的报告生成方法》(https://mp.weixin.qq.com/s/tVmAPk6-ZTQCY0_aMmWT-g)中讲了生成长篇图文report的方法,这里梳理一下目前从RAG到DeepSearch的一些经验。
ChatGPT发布后不久,我们就在实际使用中发现了纯LLM模型的局限性和RAG的重要性,并开始做了一些尝试。那时对我们来说,RAG的价值主要有两个:
【本文已在同名 微信公众号 / 知乎 / 个人博客linsight.cn 上线】
这篇文章主要从一个搞数据和训练策略的LLM算法工程师角度总结一下之前用到的训练框架相关知识,包括优化器、精度和混合精度训练和DP、ZeRO的相关内容。
【本文已在同名 微信公众号 / 知乎 / 个人博客linsight.cn 上线】
简单读一下这篇:《Cognitive Behaviors that Enable Self-Improving Reasoners, or, Four Habits of Highly Effective STaRs》
【本文已在同名 微信公众号 / 知乎 / 个人博客linsight.cn 上线】
现在长思考模型助力agent,能够循环进行复杂任务的拆解和执行。为了告诉模型任务和能够调用的工具/当前观察到的信息等,输入prompt也是越来越长,10k甚至更长的输入已经是普遍的状况。虽然推理框架也越来越强,不过本着能省一点是一点想法,prompt压缩也是个值得考虑的方向,特别是在偏垂域的场景。
【本文已在同名 微信公众号 / 知乎 / 个人博客linsight.cn 上线】
看DeepSeek-VL2细节之前,先简单介绍下DeepSeek-VL2提到的recaption方案和visual prompt数据。
【本文已在同名 微信公众号 / 知乎 / 个人博客linsight.cn 上线】
在看Qwen2.5-1M的方案之前,先把Qwen2.5-1M中用到的技术,DCA,MInference 1.0和chunked prefill学习一下。
【本文已在同名 微信公众号 / 知乎 / 个人博客linsight.cn 上线】
DeepSeek-R1以一己之力正面刚OpenAI和Anthropic。DeepSeek-R1能有这么强力的表现和DeepSeek-V3这个基模型的强大是分不开的。
【本文已在同名 微信公众号 / 知乎 / 个人博客linsight.cn 上线】
过年前这段时间好几个重磅工作相继发布,有深度求索的DeepSeek-V3、DeepSeek-R1、月之暗面的Kimi-K1.5,还有MiniMax的MiniMax-01、面壁智能的MiniCPM-o 2.6和智谱的GLM-Realtime,以及阶跃的Step-1o等,2025年才过了不到一个月,真·卷起来了。百花齐放的场景让人对AI充满期待,同时作为开发者也感到压力山大。
【本文已在同名 微信公众号 / 知乎 / 个人博客linsight.cn 上线】
最近InternVL2.5和Mini-InternVL-2相继发布。看了下,发现Intern模型在MLLM领域的相关工作还挺多的。