Linsight

大模型算法题(9)

发表于 2024-08-06 分类于 CS ， NLP ， LLM 本文字数： 1.9k 阅读时长 ≈ 3 分钟

【本文已在同名微信公众号 / 知乎 / 个人博客linsight.cn 上线】

本系列将持续整理一些LLM中关键的、细节的、值得关注的内容，持续更新~

如有错漏，欢迎指正~

阅读全文 »

适合移动设备的语言模型--MobileLLM

发表于 2024-08-02 分类于 CS ， NLP ， LLM 本文字数： 3.4k 阅读时长 ≈ 6 分钟

【本文已在同名微信公众号 / 知乎 / 个人博客linsight.cn 上线】

移动设备对端侧模型的需求日益显现，语言模型先做大后做小的趋势和之前CNN的发展历程相似。Meta提出的MobileLLM就是专门为移动设备而生，主要是125M和350M规模的模型。（让人想起七八年前的MobileNet）

阅读全文 »

苹果智能系统模型--AFM

发表于 2024-07-31 更新于 2024-08-01 分类于 CS ， NLP ， LLM 本文字数： 9.8k 阅读时长 ≈ 18 分钟

【本文已在同名微信公众号 / 知乎 / 个人博客linsight.cn 上线】

之前苹果在WWDC24发布了包含多个强大模型的Apple Intelligence系统，苹果刚刚最新发出来的技术报告《Apple Intelligence Foundation Language Models》介绍了关于其中两个模型的一些细节 -- 端侧使用的，大小约3B的AFM-on-device，和云侧使用的更大模型AFM-server（AFM=Apple Foundation Model）。报告里没有给出AFM-server的规模。

阅读全文 »

模型平均 -- model soup

发表于 2024-07-30 分类于 CS ， NLP ， LLM 本文字数： 4.4k 阅读时长 ≈ 8 分钟

【本文已在同名微信公众号 / 知乎 / 个人博客linsight.cn 上线】

最近苹果的DCLM和Llama-3.1技术报告都提到了model soup：《Model soups: averaging weights of multiple fine-tuned models improves accuracy without increasing inference time》。

阅读全文 »

Llama3.1--post-training要点一览

发表于 2024-07-26 更新于 2024-07-27 分类于 CS ， NLP ， LLM 本文字数： 13k 阅读时长 ≈ 24 分钟

【本文已在同名微信公众号 / 知乎 / 个人博客linsight.cn 上线】

书接上回：Llama3.1--预训练要点一览，继续整理一下Llama-3.1中post-training的内容。

阅读全文 »

Llama3.1--预训练要点一览

发表于 2024-07-25 分类于 CS ， NLP ， LLM 本文字数： 6.4k 阅读时长 ≈ 12 分钟

【本文已在同名微信公众号 / 知乎 / 个人博客linsight.cn 上线】

最近Llama-3.1-405B模型放出，从官方的评测结果看，已经超越了GPT-4-0125，基本达到顶尖闭源模型Claude-3.5-Sonnet和GPT-4-OMNI的水平；而更小规模的8B和70B模型相比其他同规模模型优势更加明显：

阅读全文 »

预训练数据处理--长度分解

发表于 2024-07-23 更新于 2024-07-24 分类于 CS ， NLP ， LLM 本文字数： 4.9k 阅读时长 ≈ 9 分钟

【本文已在同名微信公众号 / 知乎 / 个人博客linsight.cn 上线】

LLM预训练最重要的工作就是数据的准备，可以说90%的时间都在处理数据。

阅读全文 »

MoE路由--expert choice routing

发表于 2024-07-21 更新于 2024-07-22 分类于 CS ， NLP ， LLM 本文字数： 4.4k 阅读时长 ≈ 8 分钟

【本文已在同名微信公众号 / 知乎 / 个人博客linsight.cn 上线】

MoE模型两大主要组件就是gating network和expert network。

阅读全文 »

从dense到MoE -- sparse upcycling

发表于 2024-07-19 分类于 CS ， NLP ， LLM 本文字数： 4k 阅读时长 ≈ 7 分钟

【本文已在同名微信公众号 / 知乎 / 个人博客linsight.cn 上线】

目前已经有很多优秀的dense大模型，那么要通过MoE获得更强的模型，用已有的dense模型进行初始化是一个自然的想法。Google的sparse upcycling对此做了一些实验，由于实验是在2022年做的，模型用的是T5系列语言模型和Vision Transformer系列视觉模型。

阅读全文 »

大模型算法题(8)

发表于 2024-07-18 分类于 CS ， NLP ， LLM 本文字数： 2.5k 阅读时长 ≈ 5 分钟

【本文已在同名微信公众号 / 知乎 / 个人博客linsight.cn 上线】

本系列将持续整理一些LLM中关键的、细节的、值得关注的内容，持续更新~

如有错漏，欢迎指正~

阅读全文 »

Qwen2技术报告

发表于 2024-07-17 分类于 CS ， NLP ， LLM 本文字数： 4.5k 阅读时长 ≈ 8 分钟

【本文已在同名微信公众号 / 知乎 / 个人博客linsight.cn 上线】

不久前Qwen2发布了4个dense模型和1个MoE模型，模型规模从0.5B到57B，实用效果都还不错。现在技术报告终于来了，来看下技术报告里披露了那些有用的信息。

阅读全文 »

对MoE模型的一些观察

发表于 2024-07-16 分类于 CS ， NLP ， LLM 本文字数： 4.7k 阅读时长 ≈ 9 分钟

【本文已在同名微信公众号 / 知乎 / 个人博客linsight.cn 上线】

包括清华和港科大的五所高校对几个MoE模型进行一些研究，并给出一些相应的模型设计建议。

阅读全文 »

MoE的top-p routing

发表于 2024-07-15 分类于 CS ， NLP ， LLM 本文字数： 3.9k 阅读时长 ≈ 7 分钟

【本文已在同名微信公众号 / 知乎 / 个人博客linsight.cn 上线】

北大、快手和AGIBang共同提出MoE模型的dynamic routing机制，把gating的top-k routing改成top-p routing，在减少平均激活参数量的同时效果还略有提升。

阅读全文 »

DeepSeek-V2和MLA

发表于 2024-07-12 更新于 2024-07-13 分类于 CS ， NLP ， LLM 本文字数： 8k 阅读时长 ≈ 15 分钟

【本文已在同名微信公众号 / 知乎 / 个人博客linsight.cn 上线】

DeepSeek-V2发布之后，其低价策略在国产大模型界掀起一阵降价风。

阅读全文 »

bilibili的index-1.9B

发表于 2024-07-05 分类于 CS ， NLP ， LLM 本文字数： 2.8k 阅读时长 ≈ 5 分钟

【本文已在同名微信公众号 / 知乎 / 个人博客linsight.cn 上线】

bilibili发布的Index-1.9B包含：
- Index-1.9B base：在2.8T语料训练的基模型
- Index-1.9B pure：部分数据和base不同，其他相同
- Index-1.9B chat：基于base进行SFT和DPO后的模型
- Index-1.9B character：在chat的基础上用RAG+fewshots提供角色扮演的能力

阅读全文 »

从Yuan2.0到Yuan2.0-M32

发表于 2024-07-03 更新于 2024-07-18 分类于 CS ， NLP ， LLM 本文字数： 3.5k 阅读时长 ≈ 6 分钟

【本文已在同名微信公众号 / 知乎 / 个人博客linsight.cn 上线】

整理下Yuan2.0和Yuan2.0-M32技术报告的一些内容。

阅读全文 »

苹果的OpenELM

发表于 2024-07-02 更新于 2024-07-03 分类于 CS ， NLP ， LLM 本文字数： 2.4k 阅读时长 ≈ 4 分钟

【本文已在同名微信公众号 / 知乎 / 个人博客linsight.cn 上线】

苹果开源的OpenELM系列大模型包括整套规模（0.27B、0.45B、1.08B、3.04B）的最终模型、一些模型的中间checkpoint，training log以及训练框架和具体配置等，这些资源都在https://github.com/apple/corenet可以找到，训练信息算是给得比较全面的了。

阅读全文 »