On-Policy Distillation：让学生自己犯错、自己改正

发表于 2026-04-21 分类于 CS ， NLP ， LLM 本文字数： 7.4k 阅读时长 ≈ 13 分钟

1. 传统蒸馏的问题：一直在模仿别人的"范文"

在大模型落地过程中，蒸馏是把大模型能力迁移到小模型的常用手段。传统的 logits 蒸馏思路很直接：让教师模型生成一批数据，学生模型学习这些数据的 token 分布。这在学术上叫 Off-policy Distillation——因为训练数据来自教师策略 \(\pi_T\)，而学生真正推理时面对的是自己的策略 \(\pi_S\)。

这个范式在短文本分类、简单问答上效果不错，但一旦进入长链推理（数学证明、代码生成、多轮工具调用），问题就来了：自回归误差积累。

阅读全文 »

Karpathy所说的LLM Wiki

发表于 2026-04-07 更新于 2026-04-08 分类于 CS ， NLP ， Agent 本文字数： 7.3k 阅读时长 ≈ 13 分钟

这AI圈的新概念真是比新概念英语的新概念还多。

Andrej Karpathy最近又提了一个概念，叫LLM Wiki。这是一个使用LLM构建个人知识库的方法，Karpathy在他的post开篇就说了，这是一个high level idea，每个人在操作层面都可以有一些自己的具体设计。

大致上来说，LLM Wiki是一套人与LLM/Agent（用Claude Code就行）协作，逐步构建个人知识库的“动态过程”。为什么强调动态过程，因为LLM Wiki不是一次构建就固化使用的概念，而是不断迭代，持续更新的方案。

阅读全文 »

O-MEM

发表于 2026-03-31 分类于 CS ， NLP ， Agent 本文字数： 3.9k 阅读时长 ≈ 7 分钟

简单的Chunk-Retrieve记忆系统

Agent在长时间，跨对话的交互中，就需要使用记忆系统来保存重要的历史信息，否则每次用户每次使用都相当于新认识一遍。

记忆系统最简单的做法就是把所有历史交互都切成chunk，然后入库。当来了新的交互，就从数据库中检索相似/相关的历史交互。这种方式主要有两个问题：

阅读全文 »

Harness Engineer

发表于 2026-03-23 更新于 2026-03-30 分类于 CS ， NLP ， Agent 本文字数： 7.2k 阅读时长 ≈ 13 分钟

新概念

最近都在聊一个概念，harness engineer。

查了下，最早是有个老哥在博客《My AI Adoption Journey》里提到，大致是说chatbot已经不能满足工作的需求，agent才是适合形态。而要让agent听话，就要harness engineer。

阅读全文 »

字节的M3-Agent

发表于 2026-03-22 分类于 CS ， NLP ， Agent 本文字数： 13k 阅读时长 ≈ 23 分钟

当前的多模态Agents在实时处理视觉和听觉输入方面已有一定能力，但面临一个限制：长期记忆能力的缺失。

具体而言，现有方法在处理长视频流时面临三大挑战：

身份识别混乱：基于语言描述的记忆（如"穿红衣服的男人"）在长时程视频中容易产生歧义和混淆
关键细节遗忘：视觉和听觉细节在文本摘要过程中丢失，跨模态关联难以建立
知识无法沉淀：智能体无法从具体事件中提炼抽象知识（如"Alice喜欢早晨喝咖啡"）

阅读全文 »

Attention Residuals

发表于 2026-03-22 分类于 CS ， NLP ， LLM 本文字数： 4.5k 阅读时长 ≈ 8 分钟

残差连接的隐性成本：PreNorm Dilution

标准的 PreNorm 残差连接通过恒等映射为梯度提供高速公路，使深层网络的训练成为可能，post-norm & pre-norm。但残差连接同时定义了信息在深度方向上的聚合方式。

展开递推公式可见，第 \(l\) 层的输入实际上是前面所有层输出的等权累加：

阅读全文 »

VeRA，LoRA-XS和TinyLoRA

发表于 2026-03-21 分类于 CS ， NLP ， LLM 本文字数： 7.7k 阅读时长 ≈ 14 分钟

VeRA：随机投影的极限压缩

时间：2023.10

VeRA = Vector-based Random Matrix Adaptation

阅读全文 »

腾讯的Training-Free GRPO

发表于 2026-03-18 更新于 2026-03-21 分类于 CS ， NLP ， LLM 本文字数： 12k 阅读时长 ≈ 22 分钟

腾讯优图提出的Training-Free Group Relative Policy Optimization（Training-Free GRPO）方法，用8-18美元和100条样本，让671B参数的DeepSeek-V3.1-Terminus在AIME数学竞赛任务上获得提升，超过微调的32B模型。

从"调参"到"给经验"

RL的困境

阅读全文 »

Muon优化器

发表于 2026-03-12 更新于 2026-03-18 分类于 CS ， NLP ， LLM 本文字数： 12k 阅读时长 ≈ 23 分钟

Muon的全称是MomentUm Orthogonalized by Newton-schulz。

AdamW的问题

对于Transformer模型，大部分待优化的参数都是以矩阵的形式存在。

阅读全文 »

最近阅读3-关于蒸馏，attention结构改动，和模型对齐

发表于 2025-07-19 更新于 2026-03-22 分类于 CS ， NLP ， LLM 本文字数： 6.3k 阅读时长 ≈ 11 分钟

蒸馏

LoT

原文：《Learning from Teaching Regularization: Generalizable Correlations Should be Easy to Imitate》

阅读全文 »

阿里通义Lab: WebWalker,WebDancer和WebSailor

发表于 2025-07-08 更新于 2025-07-13 分类于 CS ， NLP ， Agent 本文字数： 6.6k 阅读时长 ≈ 12 分钟

最近阿里通义Lab发布了WebSailor模型，顾名思义，这是一个专门优化「上网冲浪能力」的模型。而在WebSailor之前，他们已经发布过WebWalker和WebDancer。

（下一个模型会叫什么呢，WebPilot或者WebAstronaut？）

阅读全文 »

Agent评测数据集

发表于 2025-07-06 更新于 2025-07-08 分类于 CS ， NLP ， Agent 本文字数： 15k 阅读时长 ≈ 28 分钟

整合一下agent常用的评测数据集。（虽然评测数据集很重要，但是谨记Goodhart's law，迷信测试指标也不可取。）

overview

数据集	语言	难度	数量	模态	领域	评测方式
GAIA	英文	高	166dev+300test	多模态	涵盖个人日常任务，科学问题，以及通用信息查询	可自动化
BrowseComp	英文	高	1266	文本	多领域	可自动化
BrowseComp-ZH	中文	高	289	文本	11个领域	可自动化
HLE	英文	高	2700+	13%多模态问题	数学、人文科学、自然科学等数十个不同的学科	可自动化
GPQA	英语	中	448道多选题	文本	生物学、物理学和化学	可自动化
ScholarSearch	英文	中	223	文本	覆盖Science & Engineering和Social Sciences & Humanities两大门类，共15个细分学科	可自动化

阅读全文 »

最近阅读2-关于自适应深度思考、context engineering和模型训练

发表于 2025-07-05 更新于 2025-07-06 分类于 CS ， NLP ， LLM 本文字数： 7.1k 阅读时长 ≈ 13 分钟

自适应深度思考

LLM加上深度思考之后，能够处理更为复杂的任务。但是深度思考的耗时长、成本高，并且不是所有输入都需要深度思考。

因此，一个思路是让模型根据输入的特性，使用不同的思考方式（无思考、短思考、长思考）。

阅读全文 »

最近阅读--关于数据合成、agent、reasoning和多任务

发表于 2025-06-28 更新于 2025-07-05 分类于 CS ， NLP ， LLM 本文字数： 5.5k 阅读时长 ≈ 10 分钟

新增一个栏目，写写平时读的文献，主要看思路。

数据合成

多轮对话数据合成：Review-Instruct

阅读全文 »

Devin和Anthropic的Agent开发经验

发表于 2025-06-17 分类于 CS ， NLP ， Agent 本文字数： 11k 阅读时长 ≈ 21 分钟

看下最近两篇关于Agent开发经验的文章。

Don’t Build Multi-Agents

来自Devin开发团队：https://cognition.ai/blog/dont-build-multi-agents#a-theory-of-building-long-running-agents

阅读全文 »

预训练经验

发表于 2025-06-15 更新于 2026-04-08 分类于 CS ， NLP ， LLM 本文字数： 9.8k 阅读时长 ≈ 18 分钟

总结一下预训练经验（2025年版）。

（经验思路均有业界文献）。

模型初始化

阅读全文 »

agent调研(1)--MetaGPT,OpenManus和OWL

发表于 2025-06-14 分类于 CS ， NLP ， Agent 本文字数： 7k 阅读时长 ≈ 13 分钟

MetaGPT

MetaGPT的开发团队就是搞OpenManus的团队。

MetaGPT项目做得很早，23年就开始搞multi-agent了。MetaGPT主要是想通过多智能体的协作提升代码能力。做法上，大致上来说就是把一个软件团队所需的角色，比如产品经理、项目经理、架构师、开发工程师、测试工程师等都用LLM给角色扮演出来。不同的LLM角色和人类团队一样相互合作，共同开发项目：

阅读全文 »

从RAG到DeepSearch

发表于 2025-06-02 更新于 2025-06-14 分类于 CS ， NLP ， Agent 本文字数： 14k 阅读时长 ≈ 25 分钟

上次在《DeepResearch的报告生成方法》(https://mp.weixin.qq.com/s/tVmAPk6-ZTQCY0_aMmWT-g)中讲了生成长篇图文report的方法，这里梳理一下目前从RAG到DeepSearch的一些经验。

RAG价值

ChatGPT发布后不久，我们就在实际使用中发现了纯LLM模型的局限性和RAG的重要性，并开始做了一些尝试。那时对我们来说，RAG的价值主要有两个：

阅读全文 »

LLM训练各种并行策略

发表于 2025-05-22 更新于 2026-03-28 分类于 CS ， NLP ， LLM 本文字数： 5.8k 阅读时长 ≈ 11 分钟

【本文已在同名微信公众号 / 知乎 / 个人博客linsight.cn 上线】

从一个搞数据和训练策略的LLM算法工程师角度，把LLM训练框架中的常用并行策略(的资料)大致理一下。

阅读全文 »

DeepResearch的报告生成方法

发表于 2025-05-19 更新于 2026-03-28 分类于 CS ， NLP ， Agent 本文字数： 7.9k 阅读时长 ≈ 14 分钟

【本文已在同名微信公众号 / 知乎 / 个人博客linsight.cn 上线】

最近搞DeepResearch。

阅读全文 »

0%