Linsight

聊聊AI技术,也聊聊其他的

【本文已在同名 微信公众号 / 知乎 / 个人博客linsight.cn 上线】

本系列将持续整理一些LLM中关键的、细节的、值得关注的内容,持续更新~

如有错漏,欢迎指正~

阅读全文 »

【本文已在同名 微信公众号 / 知乎 / 个人博客linsight.cn 上线】


移动设备对端侧模型的需求日益显现,语言模型先做大后做小的趋势和之前CNN的发展历程相似。Meta提出的MobileLLM就是专门为移动设备而生,主要是125M和350M规模的模型。(让人想起七八年前的MobileNet)

阅读全文 »

【本文已在同名 微信公众号 / 知乎 / 个人博客linsight.cn 上线】


之前苹果在WWDC24发布了包含多个强大模型的Apple Intelligence系统,苹果刚刚最新发出来的技术报告《Apple Intelligence Foundation Language Models》介绍了关于其中两个模型的一些细节 -- 端侧使用的,大小约3B的AFM-on-device,和云侧使用的更大模型AFM-server(AFM=Apple Foundation Model)。报告里没有给出AFM-server的规模。

阅读全文 »

【本文已在同名 微信公众号 / 知乎 / 个人博客linsight.cn 上线】


最近苹果的DCLM和Llama-3.1技术报告都提到了model soup:《Model soups: averaging weights of multiple fine-tuned models improves accuracy without increasing inference time》。

阅读全文 »

【本文已在同名 微信公众号 / 知乎 / 个人博客linsight.cn 上线】


最近Llama-3.1-405B模型放出,从官方的评测结果看,已经超越了GPT-4-0125,基本达到顶尖闭源模型Claude-3.5-Sonnet和GPT-4-OMNI的水平;而更小规模的8B和70B模型相比其他同规模模型优势更加明显:

阅读全文 »

【本文已在同名 微信公众号 / 知乎 / 个人博客linsight.cn 上线】


目前已经有很多优秀的dense大模型,那么要通过MoE获得更强的模型,用已有的dense模型进行初始化是一个自然的想法。Google的sparse upcycling对此做了一些实验,由于实验是在2022年做的,模型用的是T5系列语言模型和Vision Transformer系列视觉模型。

阅读全文 »

【本文已在同名 微信公众号 / 知乎 / 个人博客linsight.cn 上线】

本系列将持续整理一些LLM中关键的、细节的、值得关注的内容,持续更新~

如有错漏,欢迎指正~

阅读全文 »

【本文已在同名 微信公众号 / 知乎 / 个人博客linsight.cn 上线】


不久前Qwen2发布了4个dense模型和1个MoE模型,模型规模从0.5B到57B,实用效果都还不错。现在技术报告终于来了,来看下技术报告里披露了那些有用的信息。

阅读全文 »

【本文已在同名 微信公众号 / 知乎 / 个人博客linsight.cn 上线】


北大、快手和AGIBang共同提出MoE模型的dynamic routing机制,把gating的top-k routing改成top-p routing,在减少平均激活参数量的同时效果还略有提升。

阅读全文 »

【本文已在同名 微信公众号 / 知乎 / 个人博客linsight.cn 上线】


bilibili发布的Index-1.9B包含:
- Index-1.9B base:在2.8T语料训练的基模型
- Index-1.9B pure:部分数据和base不同,其他相同
- Index-1.9B chat:基于base进行SFT和DPO后的模型
- Index-1.9B character:在chat的基础上用RAG+fewshots提供角色扮演的能力

阅读全文 »

【本文已在同名 微信公众号 / 知乎 / 个人博客linsight.cn 上线】


苹果开源的OpenELM系列大模型包括整套规模(0.27B、0.45B、1.08B、3.04B)的最终模型、一些模型的中间checkpoint,training log以及训练框架和具体配置等,这些资源都在https://github.com/apple/corenet可以找到,训练信息算是给得比较全面的了。

阅读全文 »

【本文已在同名 微信公众号 / 知乎 / 个人博客linsight.cn 上线】


Google发布Gemma2了,包括2B、9B和27B三个规模。

阅读全文 »

【本文已在同名 微信公众号 / 知乎 / 个人博客linsight.cn 上线】


智谱的GLM系列模型在中文领域一直是比较受关注的,特别是最新的GLM-4,个人在使用体验上,感觉已经可以满足大部分日常需求。

阅读全文 »
0%