大模型推理加速-投机解码
【本文已在同名 微信公众号 / 知乎 / 个人博客linsight.cn 上线】
大语言模型虽然效果很好,但是推理时,朴素的自回归解码策略需要逐个串行解码,耗时较长,这给用户的耐心带来了很大挑战。如今各家大模型提供商基本都有对外提供大模型的体验平台,而模型的推理效率自然也成了一个重要的竞争点。
大模型推理窗口-从有限到无限大
【本文已在同名 微信公众号 / 知乎 / 个人博客linsight.cn 上线】
步入2024年Q2,大模型在RAG、文档对话、大模型Agent能力等方向的发展持续升温。在平时的日常生活和工作中,大模型工具提供的文档总结、文本润色、代码生成等能力已经是提高效率的必备帮手,甚至在一些复杂或者不熟悉的场景上,大模型也已经能提供一些比较专业的帮助。
解锁大模型长上下文能力
【本文已在同名 微信公众号 / 知乎 / 个人博客linsight.cn 上线】
步入2024年Q2,大模型在RAG、文档对话、大模型Agent能力等方向的发展持续升温。在平时的日常生活和工作中,大模型工具提供的文档总结、文本润色、代码生成等能力已经是提高效率的必备帮手,甚至在一些复杂或者不熟悉的场景上,大模型也已经能提供一些比较专业的帮助。
从代码实现看normalization-到底做了什么
【本文已在同名 微信公众号 / 知乎 / 个人博客linsight.cn 上线】
之前在《transformer中normalization的二三事》从思路上梳理了关于常用的normalization的内容。发出之后收到了一些反馈,关于这些norm在实际使用中是怎么实现的,有一些疑问。
MoE模型的前世今生
【本文已在同名 微信公众号 / 知乎 / 个人博客linsight.cn 上线】
2024年3、4月这段时间,很多MoE模型扎堆发布,包括Qwen1.5-MoE、DBRX、Jamba和Mistral等。
Yi技术报告-划重点看细节
【本文已在同名 微信公众号 / 知乎 / 个人博客linsight.cn 上线】
01.AI(零一万物),是李开复带队孵化的AI公司。2023年11月初,01.AI发布并开源了Yi-6B、Yi-34B base模型,同一周内,又开源了Yi-6B-200K和Yi-34B-200K base模型。Yi号称是从零预训练的双语模型。接下来的几个月,01.AI陆续推出了chat模型、多模态能力,Yi-9B、长上下文的记忆和检索能力等优化。
transformer中normalization的二三事
【本文已在同名 微信公众号 / 知乎 / 个人博客linsight.cn 上线】
Normalization在模型中,相对于attention这种经常被魔改的结构,受到的关注度似乎没那么高,但它对模型能否顺利训练,却有很关键的作用。
在此简单梳理下normalization相关的背景和内容,也分析一下在transformer发展上的相关内容。
稀疏注意力计算:sliding window attention
【本文已在同名微信公众号/知乎/个人博客同步上线】
LLM的长文本能力现在已经是各个大模型巨头的必争之地。
我们之前在《LLM长上下文的问题》简单介绍了目前把大模型理解和生成能力推广到32k+/128k+的主流方法,在《理解Attention:从起源到MHA,MQA和GQA》一文中也解析了MQA和GQA通过节省KV缓存的方式,支持模型在长上下文情况下推理加速的方案。
理解Attention:从起源到MHA,MQA和GQA
【本文已在同名微信公众号/知乎/个人博客同步上线】
Attention模块是现在几乎所有大模型的核心模块,因此也有很多工作致力于提升注意力计算的性能和效果。其中MHA(Multi-Head Attention)、MQA(Multi-Query Attention)和GQA(Grouped-Query Attention)这一路线的思路和做法被很多主流模型所采用,因此简单地梳理一些这几个变体的思路和做法,以及会涉及到的KV Cache相关内容。思路比较直白,但也有一些细节和原理值得思考。
当然针对Attention优化,也有很多其他优秀的方案和思路,如线性注意力、FlashAttention和Sliding Window Attention等,这些在后续再开篇梳理。
理解LLM位置编码:RoPE
最近在做LLM窗口外推的相关工作,因此刚好也回顾一下目前最流行的位置编码RoPE。
关于RoPE
RoPE(Rotary Position Embedding),是苏剑林大神在2021年就提出的一种Transformer模型的位置编码。RoPE是一种可以以绝对位置编码形式实现的相对位置编码,兼顾了模型性能和效率。