Yi技术报告-划重点看细节

发表于 2024-03-26 更新于 2024-03-29 分类于 CS ， NLP ， LLM 本文字数： 9k 阅读时长 ≈ 16 分钟

【本文已在同名微信公众号 / 知乎 / 个人博客linsight.cn 上线】

01.AI（零一万物），是李开复带队孵化的AI公司。2023年11月初，01.AI发布并开源了Yi-6B、Yi-34B base模型，同一周内，又开源了Yi-6B-200K和Yi-34B-200K base模型。Yi号称是从零预训练的双语模型。接下来的几个月，01.AI陆续推出了chat模型、多模态能力，Yi-9B、长上下文的记忆和检索能力等优化。

阅读全文 »

大模型算法题(2)

发表于 2024-03-24 分类于 CS ， NLP ， LLM 本文字数： 2.2k 阅读时长 ≈ 4 分钟

往期文章

transformer中normalization的二三事

阅读全文 »

transformer中normalization的二三事

发表于 2024-03-19 更新于 2024-04-07 分类于 CS ， NLP ， LLM 本文字数： 12k 阅读时长 ≈ 22 分钟

【本文已在同名微信公众号 / 知乎 / 个人博客linsight.cn 上线】

Normalization在模型中，相对于attention这种经常被魔改的结构，受到的关注度似乎没那么高，但它对模型能否顺利训练，却有很关键的作用。

在此简单梳理下normalization相关的背景和内容，也分析一下在transformer发展上的相关内容。

阅读全文 »

大模型算法题(1)

发表于 2024-03-17 分类于 CS ， NLP ， LLM 本文字数： 1.4k 阅读时长 ≈ 3 分钟

往期回顾

稀疏注意力计算:sliding window attention

阅读全文 »

稀疏注意力计算:sliding window attention

发表于 2024-03-12 更新于 2024-03-20 分类于 CS ， NLP ， LLM 本文字数： 11k 阅读时长 ≈ 20 分钟

【本文已在同名微信公众号/知乎/个人博客同步上线】

LLM的长文本能力现在已经是各个大模型巨头的必争之地。

我们之前在《LLM长上下文的问题》简单介绍了目前把大模型理解和生成能力推广到32k+/128k+的主流方法，在《理解Attention:从起源到MHA,MQA和GQA》一文中也解析了MQA和GQA通过节省KV缓存的方式，支持模型在长上下文情况下推理加速的方案。

阅读全文 »

理解Attention:从起源到MHA,MQA和GQA

发表于 2024-03-05 更新于 2024-04-27 分类于 CS ， NLP ， LLM 本文字数： 17k 阅读时长 ≈ 30 分钟

【本文已在同名微信公众号/知乎/个人博客同步上线】

Attention模块是现在几乎所有大模型的核心模块，因此也有很多工作致力于提升注意力计算的性能和效果。其中MHA（Multi-Head Attention）、MQA（Multi-Query Attention）和GQA（Grouped-Query Attention）这一路线的思路和做法被很多主流模型所采用，因此简单地梳理一些这几个变体的思路和做法，以及会涉及到的KV Cache相关内容。思路比较直白，但也有一些细节和原理值得思考。

当然针对Attention优化，也有很多其他优秀的方案和思路，如线性注意力、FlashAttention和Sliding Window Attention等，这些在后续再开篇梳理。

阅读全文 »