最近阅读3-关于蒸馏,attention结构改动,和模型对齐
蒸馏
LoT
原文:《Learning from Teaching Regularization: Generalizable Correlations Should be Easy to Imitate》
原文:《Learning from Teaching Regularization: Generalizable Correlations Should be Easy to Imitate》
最近阿里通义Lab发布了WebSailor模型,顾名思义,这是一个专门优化「上网冲浪能力」的模型。而在WebSailor之前,他们已经发布过WebWalker和WebDancer。
(下一个模型会叫什么呢,WebPilot或者WebAstronaut?)
整合一下agent常用的评测数据集。(虽然评测数据集很重要,但是谨记Goodhart's law,迷信测试指标也不可取。)
数据集 | 语言 | 难度 | 数量 | 模态 | 领域 | 评测方式 |
---|---|---|---|---|---|---|
GAIA | 英文 | 高 | 166dev+300test | 多模态 | 涵盖个人日常任务,科学问题,以及通用信息查询 | 可自动化 |
BrowseComp | 英文 | 高 | 1266 | 文本 | 多领域 | 可自动化 |
BrowseComp-ZH | 中文 | 高 | 289 | 文本 | 11个领域 | 可自动化 |
HLE | 英文 | 高 | 2700+ | 13%多模态问题 | 数学、人文科学、自然科学等数十个不同的学科 | 可自动化 |
GPQA | 英语 | 中 | 448道多选题 | 文本 | 生物学、物理学和化学 | 可自动化 |
ScholarSearch | 英文 | 中 | 223 | 文本 | 覆盖Science & Engineering和Social Sciences & Humanities两大门类,共15个细分学科 | 可自动化 |
LLM加上深度思考之后,能够处理更为复杂的任务。但是深度思考的耗时长、成本高,并且不是所有输入都需要深度思考。
因此,一个思路是让模型根据输入的特性,使用不同的思考方式(无思考、短思考、长思考)。
看下最近两篇关于Agent开发经验的文章。
来自Devin开发团队:https://cognition.ai/blog/dont-build-multi-agents#a-theory-of-building-long-running-agents
MetaGPT的开发团队就是搞OpenManus的团队。
MetaGPT项目做得很早,23年就开始搞multi-agent了。MetaGPT主要是想通过多智能体的协作提升代码能力。做法上,大致上来说就是把一个软件团队所需的角色,比如产品经理、项目经理、架构师、开发工程师、测试工程师等都用LLM给角色扮演出来。不同的LLM角色和人类团队一样相互合作,共同开发项目:
上次在《DeepResearch的报告生成方法》(https://mp.weixin.qq.com/s/tVmAPk6-ZTQCY0_aMmWT-g)中讲了生成长篇图文report的方法,这里梳理一下目前从RAG到DeepSearch的一些经验。
ChatGPT发布后不久,我们就在实际使用中发现了纯LLM模型的局限性和RAG的重要性,并开始做了一些尝试。那时对我们来说,RAG的价值主要有两个:
【本文已在同名 微信公众号 / 知乎 / 个人博客linsight.cn 上线】
这篇文章主要从一个搞数据和训练策略的LLM算法工程师角度总结一下之前用到的训练框架相关知识,包括优化器、精度和混合精度训练和DP、ZeRO的相关内容。
【本文已在同名 微信公众号 / 知乎 / 个人博客linsight.cn 上线】
简单读一下这篇:《Cognitive Behaviors that Enable Self-Improving Reasoners, or, Four Habits of Highly Effective STaRs》
【本文已在同名 微信公众号 / 知乎 / 个人博客linsight.cn 上线】
现在长思考模型助力agent,能够循环进行复杂任务的拆解和执行。为了告诉模型任务和能够调用的工具/当前观察到的信息等,输入prompt也是越来越长,10k甚至更长的输入已经是普遍的状况。虽然推理框架也越来越强,不过本着能省一点是一点想法,prompt压缩也是个值得考虑的方向,特别是在偏垂域的场景。
【本文已在同名 微信公众号 / 知乎 / 个人博客linsight.cn 上线】
看DeepSeek-VL2细节之前,先简单介绍下DeepSeek-VL2提到的recaption方案和visual prompt数据。