Linsight

聊聊AI技术,也聊聊其他的

最近阿里通义Lab发布了WebSailor模型,顾名思义,这是一个专门优化「上网冲浪能力」的模型。而在WebSailor之前,他们已经发布过WebWalker和WebDancer。

(下一个模型会叫什么呢,WebPilot或者WebAstronaut?)

阅读全文 »

整合一下agent常用的评测数据集。(虽然评测数据集很重要,但是谨记Goodhart's law,迷信测试指标也不可取。)

overview

数据集 语言 难度 数量 模态 领域 评测方式
GAIA 英文 166dev+300test 多模态 涵盖个人日常任务,科学问题,以及通用信息查询 可自动化
BrowseComp 英文 1266 文本 多领域 可自动化
BrowseComp-ZH 中文 289 文本 11个领域 可自动化
HLE 英文 2700+ 13%多模态问题 数学、人文科学、自然科学等数十个不同的学科 可自动化
GPQA 英语 448道多选题 文本 生物学、物理学和化学 可自动化
ScholarSearch 英文 223 文本 覆盖Science & Engineering和Social Sciences & Humanities两大门类,共15个细分学科 可自动化
阅读全文 »

自适应深度思考

LLM加上深度思考之后,能够处理更为复杂的任务。但是深度思考的耗时长、成本高,并且不是所有输入都需要深度思考。

因此,一个思路是让模型根据输入的特性,使用不同的思考方式(无思考、短思考、长思考)。

阅读全文 »

MetaGPT

MetaGPT的开发团队就是搞OpenManus的团队。

MetaGPT项目做得很早,23年就开始搞multi-agent了。MetaGPT主要是想通过多智能体的协作提升代码能力。做法上,大致上来说就是把一个软件团队所需的角色,比如产品经理、项目经理、架构师、开发工程师、测试工程师等都用LLM给角色扮演出来。不同的LLM角色和人类团队一样相互合作,共同开发项目:

阅读全文 »

上次在《DeepResearch的报告生成方法》(https://mp.weixin.qq.com/s/tVmAPk6-ZTQCY0_aMmWT-g)中讲了生成长篇图文report的方法,这里梳理一下目前从RAG到DeepSearch的一些经验。

RAG价值

ChatGPT发布后不久,我们就在实际使用中发现了纯LLM模型的局限性和RAG的重要性,并开始做了一些尝试。那时对我们来说,RAG的价值主要有两个:

阅读全文 »

【本文已在同名 微信公众号 / 知乎 / 个人博客linsight.cn 上线】


从一个搞数据和训练策略的LLM算法工程师角度,把LLM训练框架中的常用并行策略(的资料)大致理一下。

阅读全文 »

【本文已在同名 微信公众号 / 知乎 / 个人博客linsight.cn 上线】


现在长思考模型助力agent,能够循环进行复杂任务的拆解和执行。为了告诉模型任务和能够调用的工具/当前观察到的信息等,输入prompt也是越来越长,10k甚至更长的输入已经是普遍的状况。虽然推理框架也越来越强,不过本着能省一点是一点想法,prompt压缩也是个值得考虑的方向,特别是在偏垂域的场景。

阅读全文 »

【本文已在同名 微信公众号 / 知乎 / 个人博客linsight.cn 上线】


看DeepSeek-VL2细节之前,先简单介绍下DeepSeek-VL2提到的recaption方案和visual prompt数据。

阅读全文 »
0%