最近阅读3-关于蒸馏，attention结构改动，和模型对齐

发表于 2025-07-19 分类于 CS ， NLP ， LLM 本文字数： 6.3k 阅读时长 ≈ 11 分钟

蒸馏

LoT

原文：《Learning from Teaching Regularization: Generalizable Correlations Should be Easy to Imitate》

阅读全文 »

阿里通义Lab: WebWalker,WebDancer和WebSailor

发表于 2025-07-08 更新于 2025-07-13 分类于 CS ， NLP ， Agent 本文字数： 6.7k 阅读时长 ≈ 12 分钟

最近阿里通义Lab发布了WebSailor模型，顾名思义，这是一个专门优化「上网冲浪能力」的模型。而在WebSailor之前，他们已经发布过WebWalker和WebDancer。

（下一个模型会叫什么呢，WebPilot或者WebAstronaut？）

阅读全文 »

Agent评测数据集

发表于 2025-07-06 更新于 2025-07-08 分类于 CS ， NLP ， Agent 本文字数： 17k 阅读时长 ≈ 31 分钟

整合一下agent常用的评测数据集。（虽然评测数据集很重要，但是谨记Goodhart's law，迷信测试指标也不可取。）

overview

数据集	语言	难度	数量	模态	领域	评测方式
GAIA	英文	高	166dev+300test	多模态	涵盖个人日常任务，科学问题，以及通用信息查询	可自动化
BrowseComp	英文	高	1266	文本	多领域	可自动化
BrowseComp-ZH	中文	高	289	文本	11个领域	可自动化
HLE	英文	高	2700+	13%多模态问题	数学、人文科学、自然科学等数十个不同的学科	可自动化
GPQA	英语	中	448道多选题	文本	生物学、物理学和化学	可自动化
ScholarSearch	英文	中	223	文本	覆盖Science & Engineering和Social Sciences & Humanities两大门类，共15个细分学科	可自动化

阅读全文 »

最近阅读2-关于自适应深度思考、context engineering和模型训练

发表于 2025-07-05 更新于 2025-07-06 分类于 CS ， NLP ， LLM 本文字数： 7.1k 阅读时长 ≈ 13 分钟

自适应深度思考

LLM加上深度思考之后，能够处理更为复杂的任务。但是深度思考的耗时长、成本高，并且不是所有输入都需要深度思考。

因此，一个思路是让模型根据输入的特性，使用不同的思考方式（无思考、短思考、长思考）。

阅读全文 »

最近阅读--关于数据合成、agent、reasoning和多任务

发表于 2025-06-28 更新于 2025-07-05 分类于 CS ， NLP ， LLM 本文字数： 5.5k 阅读时长 ≈ 10 分钟

新增一个栏目，写写平时读的文献，主要看思路。

数据合成

多轮对话数据合成：Review-Instruct

阅读全文 »

Devin和Anthropic的Agent开发经验

发表于 2025-06-17 分类于 CS ， NLP ， Agent 本文字数： 12k 阅读时长 ≈ 21 分钟

看下最近两篇关于Agent开发经验的文章。

Don’t Build Multi-Agents

来自Devin开发团队：https://cognition.ai/blog/dont-build-multi-agents#a-theory-of-building-long-running-agents

阅读全文 »

agent调研(1)--MetaGPT,OpenManus和OWL

发表于 2025-06-14 分类于 CS ， NLP ， Agent 本文字数： 7.7k 阅读时长 ≈ 14 分钟

MetaGPT

MetaGPT的开发团队就是搞OpenManus的团队。

MetaGPT项目做得很早，23年就开始搞multi-agent了。MetaGPT主要是想通过多智能体的协作提升代码能力。做法上，大致上来说就是把一个软件团队所需的角色，比如产品经理、项目经理、架构师、开发工程师、测试工程师等都用LLM给角色扮演出来。不同的LLM角色和人类团队一样相互合作，共同开发项目：

阅读全文 »