Linsight

聊聊AI技术,也聊聊其他的

【本文已在同名微信公众号/知乎/个人博客同步上线】

LLM的长文本能力现在已经是各个大模型巨头的必争之地。

我们之前在《LLM长上下文的问题》简单介绍了目前把大模型理解和生成能力推广到32k+/128k+的主流方法,在《理解Attention:从起源到MHA,MQA和GQA》一文中也解析了MQA和GQA通过节省KV缓存的方式,支持模型在长上下文情况下推理加速的方案。

阅读全文 »

【本文已在同名微信公众号/知乎/个人博客同步上线】

Attention模块是现在几乎所有大模型的核心模块,因此也有很多工作致力于提升注意力计算的性能和效果。其中MHA(Multi-Head Attention)、MQA(Multi-Query Attention)和GQA(Grouped-Query Attention)这一路线的思路和做法被很多主流模型所采用,因此简单地梳理一些这几个变体的思路和做法,以及会涉及到的KV Cache相关内容。思路比较直白,但也有一些细节和原理值得思考。

当然针对Attention优化,也有很多其他优秀的方案和思路,如线性注意力、FlashAttention和Sliding Window Attention等,这些在后续再开篇梳理。

阅读全文 »

最近长上下文的业务需求越来越多,刚好把这个能力现状和主流方案的基础内容简单梳理一下。

跟长文本最相关的自然就是位置编码,现在很多模型都使用了RoPE这种位置编码,之前已经把RoPE的基础内容梳理了一遍:博客 知乎 微信公众号

关于长上下文

阅读全文 »

最近在做LLM窗口外推的相关工作,因此刚好也回顾一下目前最流行的位置编码RoPE。

关于RoPE

RoPE(Rotary Position Embedding),是苏剑林大神在2021年就提出的一种Transformer模型的位置编码。RoPE是一种可以以绝对位置编码形式实现的相对位置编码,兼顾了模型性能和效率。

阅读全文 »
0%