MiniCPM
【本文已在同名 微信公众号 / 知乎 / 个人博客linsight.cn 上线】
MiniCPM是面壁智能和清华开源的模型,MiniCPM开源系列包括非embedding参数为1.2B和2.4B两个规模的模型,以及对应的MiniCPM-DPO,MiniCPM-MoE和MiniCPM-128K模型。
从loss视角理解大模型涌现能力
【本文已在同名 微信公众号 / 知乎 / 个人博客linsight.cn 上线】
智谱在《Understanding Emergent Abilities of Language Models from the Loss Perspective》中提出一个观察大模型涌现能力的视角 -- 预训练loss,主要内容是通过一系列实验结果来解释一些关于涌现能力的观察。可以作为一个理解大模型的参考角度,也可以用于指导预训练模型的开发和优化。
大模型算法题(7)
【往期文章】
MoE模型的前世今生
昆仑万维-SkyworkMoE
LLM长上下文的问题
解锁大模型长上下文能力
大模型推理窗口-从有限到无限大
理解Attention:从起源到MHA,MQA和GQA
大模型推理加速-投机解码
大模型偏好对齐-DPO
大模型偏好对齐-ODPO
大模型偏好对齐-simPO
大模型偏好对齐-IPO
Yi技术报告-划重点看细节
transformer中normalization的二三事
从代码实现看normalization-到底做了什么
稀疏注意力计算:sliding
window attention
理解LLM位置编码:RoPE
大模型算法题(1)
大模型算法题(2)
大模型算法题(3)
大模型算法题(4)
大模型算法题(5)
大模型算法题(6)
大模型偏好对齐-IPO
【本文已在同名 微信公众号 / 知乎 / 个人博客linsight.cn 上线】
前面我们对DPO、ODPO、simPO的思路做了整理:大模型偏好对齐-DPO,大模型偏好对齐-ODPO,大模型偏好对齐-simPO。
大模型偏好对齐-DPO
大模型推理加速-投机解码
【本文已在同名 微信公众号 / 知乎 / 个人博客linsight.cn 上线】
大语言模型虽然效果很好,但是推理时,朴素的自回归解码策略需要逐个串行解码,耗时较长,这给用户的耐心带来了很大挑战。如今各家大模型提供商基本都有对外提供大模型的体验平台,而模型的推理效率自然也成了一个重要的竞争点。
大模型推理窗口-从有限到无限大
【本文已在同名 微信公众号 / 知乎 / 个人博客linsight.cn 上线】
步入2024年Q2,大模型在RAG、文档对话、大模型Agent能力等方向的发展持续升温。在平时的日常生活和工作中,大模型工具提供的文档总结、文本润色、代码生成等能力已经是提高效率的必备帮手,甚至在一些复杂或者不熟悉的场景上,大模型也已经能提供一些比较专业的帮助。
解锁大模型长上下文能力
【本文已在同名 微信公众号 / 知乎 / 个人博客linsight.cn 上线】
步入2024年Q2,大模型在RAG、文档对话、大模型Agent能力等方向的发展持续升温。在平时的日常生活和工作中,大模型工具提供的文档总结、文本润色、代码生成等能力已经是提高效率的必备帮手,甚至在一些复杂或者不熟悉的场景上,大模型也已经能提供一些比较专业的帮助。
从代码实现看normalization-到底做了什么
【本文已在同名 微信公众号 / 知乎 / 个人博客linsight.cn 上线】
之前在《transformer中normalization的二三事》从思路上梳理了关于常用的normalization的内容。发出之后收到了一些反馈,关于这些norm在实际使用中是怎么实现的,有一些疑问。
MoE模型的前世今生
【本文已在同名 微信公众号 / 知乎 / 个人博客linsight.cn 上线】
2024年3、4月这段时间,很多MoE模型扎堆发布,包括Qwen1.5-MoE、DBRX、Jamba和Mistral等。