Linsight

聊聊AI技术,也聊聊其他的

【本文已在同名 微信公众号 / 知乎 / 个人博客linsight.cn 上线】


最近Llama-3.1-405B模型放出,从官方的评测结果看,已经超越了GPT-4-0125,基本达到顶尖闭源模型Claude-3.5-Sonnet和GPT-4-OMNI的水平;而更小规模的8B和70B模型相比其他同规模模型优势更加明显:

阅读全文 »

【本文已在同名 微信公众号 / 知乎 / 个人博客linsight.cn 上线】


目前已经有很多优秀的dense大模型,那么要通过MoE获得更强的模型,用已有的dense模型进行初始化是一个自然的想法。Google的sparse upcycling对此做了一些实验,由于实验是在2022年做的,模型用的是T5系列语言模型和Vision Transformer系列视觉模型。

阅读全文 »

【本文已在同名 微信公众号 / 知乎 / 个人博客linsight.cn 上线】

本系列将持续整理一些LLM中关键的、细节的、值得关注的内容,持续更新~

如有错漏,欢迎指正~

阅读全文 »

【本文已在同名 微信公众号 / 知乎 / 个人博客linsight.cn 上线】


不久前Qwen2发布了4个dense模型和1个MoE模型,模型规模从0.5B到57B,实用效果都还不错。现在技术报告终于来了,来看下技术报告里披露了那些有用的信息。

阅读全文 »

【本文已在同名 微信公众号 / 知乎 / 个人博客linsight.cn 上线】


北大、快手和AGIBang共同提出MoE模型的dynamic routing机制,把gating的top-k routing改成top-p routing,在减少平均激活参数量的同时效果还略有提升。

阅读全文 »

【本文已在同名 微信公众号 / 知乎 / 个人博客linsight.cn 上线】


bilibili发布的Index-1.9B包含:
- Index-1.9B base:在2.8T语料训练的基模型
- Index-1.9B pure:部分数据和base不同,其他相同
- Index-1.9B chat:基于base进行SFT和DPO后的模型
- Index-1.9B character:在chat的基础上用RAG+fewshots提供角色扮演的能力

阅读全文 »

【本文已在同名 微信公众号 / 知乎 / 个人博客linsight.cn 上线】


苹果开源的OpenELM系列大模型包括整套规模(0.27B、0.45B、1.08B、3.04B)的最终模型、一些模型的中间checkpoint,training log以及训练框架和具体配置等,这些资源都在https://github.com/apple/corenet可以找到,训练信息算是给得比较全面的了。

阅读全文 »

【本文已在同名 微信公众号 / 知乎 / 个人博客linsight.cn 上线】


Google发布Gemma2了,包括2B、9B和27B三个规模。

阅读全文 »

【本文已在同名 微信公众号 / 知乎 / 个人博客linsight.cn 上线】


智谱的GLM系列模型在中文领域一直是比较受关注的,特别是最新的GLM-4,个人在使用体验上,感觉已经可以满足大部分日常需求。

阅读全文 »

【本文已在同名 微信公众号 / 知乎 / 个人博客linsight.cn 上线】


有朋友问到了关于RoPE远距离衰减的问题,这里给出几个示例,提供一个直观理解的视角。

阅读全文 »

【本文已在同名 微信公众号 / 知乎 / 个人博客linsight.cn 上线】


MiniCPM是面壁智能和清华开源的模型,MiniCPM开源系列包括非embedding参数为1.2B和2.4B两个规模的模型,以及对应的MiniCPM-DPO,MiniCPM-MoE和MiniCPM-128K模型。

阅读全文 »

【本文已在同名 微信公众号 / 知乎 / 个人博客linsight.cn 上线】


智谱在《Understanding Emergent Abilities of Language Models from the Loss Perspective》中提出一个观察大模型涌现能力的视角 -- 预训练loss,主要内容是通过一系列实验结果来解释一些关于涌现能力的观察。可以作为一个理解大模型的参考角度,也可以用于指导预训练模型的开发和优化。

阅读全文 »
0%