Linsight

聊聊AI技术,也聊聊其他的

【本文已在同名 微信公众号 / 知乎 / 个人博客linsight.cn 上线】


有朋友问到了关于RoPE远距离衰减的问题,这里给出几个示例,提供一个直观理解的视角。

阅读全文 »

【本文已在同名 微信公众号 / 知乎 / 个人博客linsight.cn 上线】


MiniCPM是面壁智能和清华开源的模型,MiniCPM开源系列包括非embedding参数为1.2B和2.4B两个规模的模型,以及对应的MiniCPM-DPO,MiniCPM-MoE和MiniCPM-128K模型。

阅读全文 »

【本文已在同名 微信公众号 / 知乎 / 个人博客linsight.cn 上线】


智谱在《Understanding Emergent Abilities of Language Models from the Loss Perspective》中提出一个观察大模型涌现能力的视角 -- 预训练loss,主要内容是通过一系列实验结果来解释一些关于涌现能力的观察。可以作为一个理解大模型的参考角度,也可以用于指导预训练模型的开发和优化。

阅读全文 »

【往期文章】

MoE模型的前世今生
昆仑万维-SkyworkMoE
LLM长上下文的问题
解锁大模型长上下文能力
大模型推理窗口-从有限到无限大
理解Attention:从起源到MHA,MQA和GQA
大模型推理加速-投机解码
大模型偏好对齐-DPO
大模型偏好对齐-ODPO
大模型偏好对齐-simPO
大模型偏好对齐-IPO
Yi技术报告-划重点看细节
transformer中normalization的二三事
从代码实现看normalization-到底做了什么
稀疏注意力计算:sliding window attention
理解LLM位置编码:RoPE
大模型算法题(1)
大模型算法题(2)
大模型算法题(3)
大模型算法题(4)
大模型算法题(5)
大模型算法题(6)


阅读全文 »

【本文已在同名 微信公众号 / 知乎 / 个人博客linsight.cn 上线】


要对齐大模型偏好并不容易,从预训练的数据内容、模型的结构到SFT数据配比甚至数据格式等都会影响最终结果。

阅读全文 »

【往期文章】

MoE模型的前世今生
LLM长上下文的问题
解锁大模型长上下文能力
大模型推理窗口-从有限到无限大
理解Attention:从起源到MHA,MQA和GQA
Yi技术报告-划重点看细节
transformer中normalization的二三事
从代码实现看normalization-到底做了什么
稀疏注意力计算:sliding window attention
理解LLM位置编码:RoPE
大模型算法题(1)
大模型算法题(2)
大模型算法题(3)
大模型算法题(4)
大模型算法题(5)


阅读全文 »

【本文已在同名 微信公众号 / 知乎 / 个人博客linsight.cn 上线】


大语言模型虽然效果很好,但是推理时,朴素的自回归解码策略需要逐个串行解码,耗时较长,这给用户的耐心带来了很大挑战。如今各家大模型提供商基本都有对外提供大模型的体验平台,而模型的推理效率自然也成了一个重要的竞争点。

阅读全文 »

【本文已在同名 微信公众号 / 知乎 / 个人博客linsight.cn 上线】


步入2024年Q2,大模型在RAG、文档对话、大模型Agent能力等方向的发展持续升温。在平时的日常生活和工作中,大模型工具提供的文档总结、文本润色、代码生成等能力已经是提高效率的必备帮手,甚至在一些复杂或者不熟悉的场景上,大模型也已经能提供一些比较专业的帮助。

阅读全文 »

【本文已在同名 微信公众号 / 知乎 / 个人博客linsight.cn 上线】


步入2024年Q2,大模型在RAG、文档对话、大模型Agent能力等方向的发展持续升温。在平时的日常生活和工作中,大模型工具提供的文档总结、文本润色、代码生成等能力已经是提高效率的必备帮手,甚至在一些复杂或者不熟悉的场景上,大模型也已经能提供一些比较专业的帮助。

阅读全文 »
0%