适合移动设备的语言模型--MobileLLM
【本文已在同名 微信公众号 / 知乎 / 个人博客linsight.cn 上线】
移动设备对端侧模型的需求日益显现,语言模型先做大后做小的趋势和之前CNN的发展历程相似。Meta提出的MobileLLM就是专门为移动设备而生,主要是125M和350M规模的模型。(让人想起七八年前的MobileNet)
苹果智能系统模型--AFM
【本文已在同名 微信公众号 / 知乎 / 个人博客linsight.cn 上线】
之前苹果在WWDC24发布了包含多个强大模型的Apple Intelligence系统,苹果刚刚最新发出来的技术报告《Apple Intelligence Foundation Language Models》介绍了关于其中两个模型的一些细节 -- 端侧使用的,大小约3B的AFM-on-device,和云侧使用的更大模型AFM-server(AFM=Apple Foundation Model)。报告里没有给出AFM-server的规模。
模型平均 -- model soup
【本文已在同名 微信公众号 / 知乎 / 个人博客linsight.cn 上线】
最近苹果的DCLM和Llama-3.1技术报告都提到了model soup:《Model soups: averaging weights of multiple fine-tuned models improves accuracy without increasing inference time》。
Llama3.1--post-training要点一览
Llama3.1--预训练要点一览
【本文已在同名 微信公众号 / 知乎 / 个人博客linsight.cn 上线】
最近Llama-3.1-405B模型放出,从官方的评测结果看,已经超越了GPT-4-0125,基本达到顶尖闭源模型Claude-3.5-Sonnet和GPT-4-OMNI的水平;而更小规模的8B和70B模型相比其他同规模模型优势更加明显:
从dense到MoE -- sparse upcycling
【本文已在同名 微信公众号 / 知乎 / 个人博客linsight.cn 上线】
目前已经有很多优秀的dense大模型,那么要通过MoE获得更强的模型,用已有的dense模型进行初始化是一个自然的想法。Google的sparse upcycling对此做了一些实验,由于实验是在2022年做的,模型用的是T5系列语言模型和Vision Transformer系列视觉模型。
Qwen2技术报告
【本文已在同名 微信公众号 / 知乎 / 个人博客linsight.cn 上线】
不久前Qwen2发布了4个dense模型和1个MoE模型,模型规模从0.5B到57B,实用效果都还不错。现在技术报告终于来了,来看下技术报告里披露了那些有用的信息。
MoE的top-p routing
【本文已在同名 微信公众号 / 知乎 / 个人博客linsight.cn 上线】
北大、快手和AGIBang共同提出MoE模型的dynamic routing机制,把gating的top-k routing改成top-p routing,在减少平均激活参数量的同时效果还略有提升。
bilibili的index-1.9B
【本文已在同名 微信公众号 / 知乎 / 个人博客linsight.cn 上线】
bilibili发布的Index-1.9B包含:
- Index-1.9B base:在2.8T语料训练的基模型
- Index-1.9B pure:部分数据和base不同,其他相同
- Index-1.9B chat:基于base进行SFT和DPO后的模型
- Index-1.9B
character:在chat的基础上用RAG+fewshots提供角色扮演的能力
苹果的OpenELM
【本文已在同名 微信公众号 / 知乎 / 个人博客linsight.cn 上线】
苹果开源的OpenELM系列大模型包括整套规模(0.27B、0.45B、1.08B、3.04B)的最终模型、一些模型的中间checkpoint,training log以及训练框架和具体配置等,这些资源都在https://github.com/apple/corenet可以找到,训练信息算是给得比较全面的了。
GLM4报告的一些技术点
【本文已在同名 微信公众号 / 知乎 / 个人博客linsight.cn 上线】
智谱的GLM系列模型在中文领域一直是比较受关注的,特别是最新的GLM-4,个人在使用体验上,感觉已经可以满足大部分日常需求。