Linsight

RoPE的远距离衰减

发表于 2024-06-25 更新于 2024-06-26 分类于 CS ， NLP ， LLM 本文字数： 4.2k 阅读时长 ≈ 8 分钟

【本文已在同名微信公众号 / 知乎 / 个人博客linsight.cn 上线】

有朋友问到了关于RoPE远距离衰减的问题，这里给出几个示例，提供一个直观理解的视角。

阅读全文 »

MiniCPM

发表于 2024-06-18 更新于 2024-06-24 分类于 CS ， NLP ， LLM 本文字数： 7.9k 阅读时长 ≈ 14 分钟

【本文已在同名微信公众号 / 知乎 / 个人博客linsight.cn 上线】

MiniCPM是面壁智能和清华开源的模型，MiniCPM开源系列包括非embedding参数为1.2B和2.4B两个规模的模型，以及对应的MiniCPM-DPO，MiniCPM-MoE和MiniCPM-128K模型。

阅读全文 »

LLM的重复生成和ICL

发表于 2024-06-17 更新于 2024-06-18 分类于 CS ， NLP ， LLM 本文字数： 4.7k 阅读时长 ≈ 8 分钟

【本文已在同名微信公众号 / 知乎 / 个人博客linsight.cn 上线】

LLM的重复生成问题，俗称复读机问题。

阅读全文 »

从loss视角理解大模型涌现能力

发表于 2024-06-15 更新于 2024-06-16 分类于 CS ， NLP ， LLM 本文字数： 5.4k 阅读时长 ≈ 10 分钟

【本文已在同名微信公众号 / 知乎 / 个人博客linsight.cn 上线】

智谱在《Understanding Emergent Abilities of Language Models from the Loss Perspective》中提出一个观察大模型涌现能力的视角 -- 预训练loss，主要内容是通过一系列实验结果来解释一些关于涌现能力的观察。可以作为一个理解大模型的参考角度，也可以用于指导预训练模型的开发和优化。

阅读全文 »

大模型算法题(7)

发表于 2024-06-12 分类于 CS ， NLP ， LLM 本文字数： 2.1k 阅读时长 ≈ 4 分钟

【往期文章】

MoE模型的前世今生
 昆仑万维-SkyworkMoE
LLM长上下文的问题
 解锁大模型长上下文能力
 大模型推理窗口-从有限到无限大
 理解Attention:从起源到MHA,MQA和GQA
大模型推理加速-投机解码
 大模型偏好对齐-DPO
大模型偏好对齐-ODPO
大模型偏好对齐-simPO
大模型偏好对齐-IPO
Yi技术报告-划重点看细节
 transformer中normalization的二三事
 从代码实现看normalization-到底做了什么
 稀疏注意力计算:sliding window attention
理解LLM位置编码:RoPE
大模型算法题(1)
大模型算法题(2)
大模型算法题(3)
大模型算法题(4)
大模型算法题(5)
大模型算法题(6)

阅读全文 »

大模型推理加速-MEDUSA

发表于 2024-06-11 更新于 2024-06-15 分类于 CS ， NLP ， LLM 本文字数： 6.7k 阅读时长 ≈ 12 分钟

【本文已在同名微信公众号 / 知乎 / 个人博客linsight.cn 上线】

之前对speculative decoding的做法做了介绍：大模型推理加速-投机解码。

阅读全文 »

昆仑万维-SkyworkMoE

发表于 2024-06-04 更新于 2024-06-05 分类于 CS ， NLP ， LLM 本文字数： 6k 阅读时长 ≈ 11 分钟

【本文已在同名微信公众号 / 知乎 / 个人博客linsight.cn 上线】

之前我们对比较热门的十个MoE工作进行了整理：MoE模型的前世今生。

阅读全文 »

大模型偏好对齐-IPO

发表于 2024-06-02 更新于 2024-06-06 分类于 CS ， NLP ， LLM 本文字数： 3.5k 阅读时长 ≈ 6 分钟

【本文已在同名微信公众号 / 知乎 / 个人博客linsight.cn 上线】

前面我们对DPO、ODPO、simPO的思路做了整理：大模型偏好对齐-DPO，大模型偏好对齐-ODPO，大模型偏好对齐-simPO。

阅读全文 »

大模型偏好对齐-simPO

发表于 2024-05-31 更新于 2024-06-02 分类于 CS ， NLP ， LLM 本文字数： 5.2k 阅读时长 ≈ 9 分钟

【本文已在同名微信公众号 / 知乎 / 个人博客linsight.cn 上线】

前面我们对DPO和ODPO的思路做了整理：大模型偏好对齐-DPO，大模型偏好对齐-ODPO。

阅读全文 »

大模型偏好对齐-ODPO

发表于 2024-05-30 更新于 2024-05-31 分类于 CS ， NLP ， LLM 本文字数： 5.7k 阅读时长 ≈ 10 分钟

【本文已在同名微信公众号 / 知乎 / 个人博客linsight.cn 上线】

前面对DPO的思路做了整理：大模型偏好对齐-DPO。

阅读全文 »

大模型偏好对齐-DPO

发表于 2024-05-26 更新于 2024-05-29 分类于 CS ， NLP ， LLM 本文字数： 13k 阅读时长 ≈ 24 分钟

【本文已在同名微信公众号 / 知乎 / 个人博客linsight.cn 上线】

要对齐大模型偏好并不容易，从预训练的数据内容、模型的结构到SFT数据配比甚至数据格式等都会影响最终结果。

阅读全文 »

大模型算法题(6)

发表于 2024-05-14 分类于 CS ， NLP ， LLM 本文字数： 2.8k 阅读时长 ≈ 5 分钟

【往期文章】

MoE模型的前世今生
 LLM长上下文的问题
 解锁大模型长上下文能力
 大模型推理窗口-从有限到无限大
 理解Attention:从起源到MHA,MQA和GQA
Yi技术报告-划重点看细节
 transformer中normalization的二三事
 从代码实现看normalization-到底做了什么
 稀疏注意力计算:sliding window attention
理解LLM位置编码:RoPE
大模型算法题(1)
大模型算法题(2)
大模型算法题(3)
大模型算法题(4)
大模型算法题(5)

阅读全文 »

大模型推理加速-投机解码

发表于 2024-05-13 更新于 2024-05-25 分类于 CS ， NLP ， LLM 本文字数： 10k 阅读时长 ≈ 18 分钟

【本文已在同名微信公众号 / 知乎 / 个人博客linsight.cn 上线】

大语言模型虽然效果很好，但是推理时，朴素的自回归解码策略需要逐个串行解码，耗时较长，这给用户的耐心带来了很大挑战。如今各家大模型提供商基本都有对外提供大模型的体验平台，而模型的推理效率自然也成了一个重要的竞争点。

阅读全文 »

大模型推理窗口-从有限到无限大

发表于 2024-05-06 更新于 2024-05-13 分类于 CS ， NLP ， LLM 本文字数： 14k 阅读时长 ≈ 26 分钟

【本文已在同名微信公众号 / 知乎 / 个人博客linsight.cn 上线】

步入2024年Q2，大模型在RAG、文档对话、大模型Agent能力等方向的发展持续升温。在平时的日常生活和工作中，大模型工具提供的文档总结、文本润色、代码生成等能力已经是提高效率的必备帮手，甚至在一些复杂或者不熟悉的场景上，大模型也已经能提供一些比较专业的帮助。

阅读全文 »

解锁大模型长上下文能力

发表于 2024-05-04 更新于 2024-05-10 分类于 CS ， NLP ， LLM 本文字数： 8.1k 阅读时长 ≈ 15 分钟

【本文已在同名微信公众号 / 知乎 / 个人博客linsight.cn 上线】

步入2024年Q2，大模型在RAG、文档对话、大模型Agent能力等方向的发展持续升温。在平时的日常生活和工作中，大模型工具提供的文档总结、文本润色、代码生成等能力已经是提高效率的必备帮手，甚至在一些复杂或者不熟悉的场景上，大模型也已经能提供一些比较专业的帮助。

阅读全文 »

大模型算法题(5)

发表于 2024-05-04 更新于 2024-05-10 分类于 CS ， NLP ， LLM 本文字数： 1.9k 阅读时长 ≈ 4 分钟

【往期文章】

Yi技术报告-划重点看细节
 transformer中normalization的二三事
 稀疏注意力计算:sliding window attention
理解Attention:从起源到MHA,MQA和GQA
LLM长上下文的问题
 理解LLM位置编码:RoPE
大模型算法题(1)
大模型算法题(2)

阅读全文 »

大模型算法题(4)

发表于 2024-04-20 更新于 2024-05-10 分类于 CS ， NLP ， LLM 本文字数： 2.3k 阅读时长 ≈ 4 分钟

【往期文章】

Yi技术报告-划重点看细节
 transformer中normalization的二三事
 稀疏注意力计算:sliding window attention
理解Attention:从起源到MHA,MQA和GQA
LLM长上下文的问题
 理解LLM位置编码:RoPE
大模型算法题(1)
大模型算法题(2)

阅读全文 »

从代码实现看normalization-到底做了什么

发表于 2024-04-06 更新于 2024-05-10 分类于 CS ， NLP ， LLM 本文字数： 19k 阅读时长 ≈ 34 分钟

【本文已在同名微信公众号 / 知乎 / 个人博客linsight.cn 上线】

之前在《transformer中normalization的二三事》从思路上梳理了关于常用的normalization的内容。发出之后收到了一些反馈，关于这些norm在实际使用中是怎么实现的，有一些疑问。

阅读全文 »

大模型算法题(3)

发表于 2024-04-05 更新于 2025-06-09 分类于 CS ， NLP ， LLM 本文字数： 1.7k 阅读时长 ≈ 3 分钟

【往期文章】

Yi技术报告-划重点看细节
 transformer中normalization的二三事
 稀疏注意力计算:sliding window attention
理解Attention:从起源到MHA,MQA和GQA
LLM长上下文的问题
 理解LLM位置编码:RoPE
大模型算法题(1)
大模型算法题(2)

阅读全文 »

MoE模型的前世今生

发表于 2024-03-30 更新于 2024-05-10 分类于 CS ， NLP ， LLM 本文字数： 33k 阅读时长 ≈ 1:01

【本文已在同名微信公众号 / 知乎 / 个人博客linsight.cn 上线】

2024年3、4月这段时间，很多MoE模型扎堆发布，包括Qwen1.5-MoE、DBRX、Jamba和Mistral等。

阅读全文 »

0%