agent调研(1)--MetaGPT,OpenManus和OWL

发表于 2025-06-14 分类于 CS ， NLP ， Agent 本文字数： 7.7k 阅读时长 ≈ 14 分钟

MetaGPT

MetaGPT的开发团队就是搞OpenManus的团队。

MetaGPT项目做得很早，23年就开始搞multi-agent了。MetaGPT主要是想通过多智能体的协作提升代码能力。做法上，大致上来说就是把一个软件团队所需的角色，比如产品经理、项目经理、架构师、开发工程师、测试工程师等都用LLM给角色扮演出来。不同的LLM角色和人类团队一样相互合作，共同开发项目：

阅读全文 »

从RAG到DeepSearch

发表于 2025-06-02 更新于 2025-06-14 分类于 CS ， NLP ， Agent 本文字数： 14k 阅读时长 ≈ 25 分钟

上次在《DeepResearch的报告生成方法》(https://mp.weixin.qq.com/s/tVmAPk6-ZTQCY0_aMmWT-g)中讲了生成长篇图文report的方法，这里梳理一下目前从RAG到DeepSearch的一些经验。

RAG价值

ChatGPT发布后不久，我们就在实际使用中发现了纯LLM模型的局限性和RAG的重要性，并开始做了一些尝试。那时对我们来说，RAG的价值主要有两个：

阅读全文 »

LLM训练各种并行策略

发表于 2025-05-22 更新于 2025-05-24 分类于 CS ， NLP ， LLM 本文字数： 5.4k 阅读时长 ≈ 10 分钟

【本文已在同名微信公众号 / 知乎 / 个人博客linsight.cn 上线】

从一个搞数据和训练策略的LLM算法工程师角度，把LLM训练框架中的常用并行策略(的资料)大致理一下。

阅读全文 »

DeepResearch的报告生成方法

发表于 2025-05-19 更新于 2025-06-14 分类于 CS ， NLP ， Agent 本文字数： 7.6k 阅读时长 ≈ 14 分钟

【本文已在同名微信公众号 / 知乎 / 个人博客linsight.cn 上线】

最近搞DeepResearch。

阅读全文 »

LLM训练框架：从优化器和精度讲到ZeRO

发表于 2025-05-17 更新于 2025-05-18 分类于 CS ， NLP ， LLM 本文字数： 12k 阅读时长 ≈ 22 分钟

【本文已在同名微信公众号 / 知乎 / 个人博客linsight.cn 上线】

这篇文章主要从一个搞数据和训练策略的LLM算法工程师角度总结一下之前用到的训练框架相关知识，包括优化器、精度和混合精度训练和DP、ZeRO的相关内容。

阅读全文 »

Qwen3实测 & 技术报告

发表于 2025-05-14 分类于 CS ， NLP ， LLM 本文字数： 6.3k 阅读时长 ≈ 11 分钟

【本文已在同名微信公众号 / 知乎 / 个人博客linsight.cn 上线】

Qwen3报告出来了，这次发报告的速度感觉比之前快一些。来看下报告披露了什么内容。

阅读全文 »

Agent完全手册(零)：三大模块，三个理念

发表于 2025-04-11 分类于 CS ， NLP ， LLM 本文字数： 7.7k 阅读时长 ≈ 14 分钟

【本文已在同名微信公众号 / 知乎 / 个人博客linsight.cn 上线】

打算把agent相关内容拉出来专门写一个系列，持续更新。

阅读全文 »

基模型Cognitive Behaviors对RL的影响

发表于 2025-04-06 分类于 CS ， NLP ， LLM 本文字数： 11k 阅读时长 ≈ 21 分钟

【本文已在同名微信公众号 / 知乎 / 个人博客linsight.cn 上线】

简单读一下这篇：《Cognitive Behaviors that Enable Self-Improving Reasoners, or, Four Habits of Highly Effective STaRs》

阅读全文 »

关于The_Bitter_Lesson

发表于 2025-03-30 分类于 CS ， NLP ， LLM 本文字数： 11k 阅读时长 ≈ 19 分钟

【本文已在同名微信公众号 / 知乎 / 个人博客linsight.cn 上线】

The Bitter Lesson的原文和译文放在后面了。可以先看看。

阅读全文 »

reasoning压缩(一)

发表于 2025-03-29 分类于 CS ， NLP ， LLM 本文字数： 9.3k 阅读时长 ≈ 17 分钟

【本文已在同名微信公众号 / 知乎 / 个人博客linsight.cn 上线】

之前讲过了prompt压缩，追求把模型的输入减少一些：

阅读全文 »

prompt压缩(二)

发表于 2025-03-22 分类于 CS ， NLP ， LLM 本文字数： 7.8k 阅读时长 ≈ 14 分钟

【本文已在同名微信公众号 / 知乎 / 个人博客linsight.cn 上线】

前文：prompt压缩(一)

阅读全文 »

prompt压缩(一)

发表于 2025-03-15 更新于 2025-03-16 分类于 CS ， NLP ， LLM 本文字数： 7.7k 阅读时长 ≈ 14 分钟

【本文已在同名微信公众号 / 知乎 / 个人博客linsight.cn 上线】

现在长思考模型助力agent，能够循环进行复杂任务的拆解和执行。为了告诉模型任务和能够调用的工具/当前观察到的信息等，输入prompt也是越来越长，10k甚至更长的输入已经是普遍的状况。虽然推理框架也越来越强，不过本着能省一点是一点想法，prompt压缩也是个值得考虑的方向，特别是在偏垂域的场景。

阅读全文 »

LLM水印

发表于 2025-03-01 更新于 2025-03-02 分类于 CS ， NLP ， LLM 本文字数： 6.8k 阅读时长 ≈ 12 分钟

【本文已在同名微信公众号 / 知乎 / 个人博客linsight.cn 上线】

给图片加水印大家都很熟悉了：

阅读全文 »

DeepSeek-VL2

发表于 2025-02-25 分类于 CS ，多模态本文字数： 8.4k 阅读时长 ≈ 15 分钟

【本文已在同名微信公众号 / 知乎 / 个人博客linsight.cn 上线】

看DeepSeek-VL2细节之前，先简单介绍下DeepSeek-VL2提到的recaption方案和visual prompt数据。

阅读全文 »

Qwen2.5-1M技术解密

发表于 2025-02-18 更新于 2025-02-20 分类于 CS ， NLP ， LLM 本文字数： 14k 阅读时长 ≈ 25 分钟

【本文已在同名微信公众号 / 知乎 / 个人博客linsight.cn 上线】

在看Qwen2.5-1M的方案之前，先把Qwen2.5-1M中用到的技术，DCA，MInference 1.0和chunked prefill学习一下。

阅读全文 »

DeepSeek-V3细节探索

发表于 2025-01-29 更新于 2025-02-02 分类于 CS ， NLP ， LLM 本文字数： 15k 阅读时长 ≈ 28 分钟

【本文已在同名微信公众号 / 知乎 / 个人博客linsight.cn 上线】

DeepSeek-R1以一己之力正面刚OpenAI和Anthropic。DeepSeek-R1能有这么强力的表现和DeepSeek-V3这个基模型的强大是分不开的。

阅读全文 »

小米的移动UI多模态模型--MobileVLM

发表于 2025-01-29 分类于 CS ，多模态本文字数： 3.9k 阅读时长 ≈ 7 分钟

【本文已在同名微信公众号 / 知乎 / 个人博客linsight.cn 上线】

图文多模态模型的一大应用场景就是手机上的智能助手，一个能听能看能写能说的智能助手还是颇有吸引力的。

阅读全文 »

深度求索DeepSeek-R1详解

发表于 2025-01-23 更新于 2025-01-29 分类于 CS ， NLP ， LLM 本文字数： 7.4k 阅读时长 ≈ 13 分钟

【本文已在同名微信公众号 / 知乎 / 个人博客linsight.cn 上线】

过年前这段时间好几个重磅工作相继发布，有深度求索的DeepSeek-V3、DeepSeek-R1、月之暗面的Kimi-K1.5，还有MiniMax的MiniMax-01、面壁智能的MiniCPM-o 2.6和智谱的GLM-Realtime，以及阶跃的Step-1o等，2025年才过了不到一个月，真·卷起来了。百花齐放的场景让人对AI充满期待，同时作为开发者也感到压力山大。

阅读全文 »

多模态入门(五)--InternVL系列

发表于 2025-01-22 分类于 CS ，多模态本文字数： 9.6k 阅读时长 ≈ 17 分钟

【本文已在同名微信公众号 / 知乎 / 个人博客linsight.cn 上线】

最近InternVL2.5和Mini-InternVL-2相继发布。看了下，发现Intern模型在MLLM领域的相关工作还挺多的。

阅读全文 »

多模态入门(四)--CogVLM,VILA,MM1,MM1.5和Pixtral-12B

发表于 2025-01-15 分类于 CS ，多模态本文字数： 11k 阅读时长 ≈ 21 分钟

【本文已在同名微信公众号 / 知乎 / 个人博客linsight.cn 上线】

这篇主要包括CogVLM，VILA，MM1，MM1.5和Pixtral-12B。

阅读全文 »

0%