代码大模型(一)--业界现状
【本文已在同名 微信公众号 / 知乎 / 个人博客linsight.cn 上线】
借助代码大模型进行开发几乎已经是每个开发人员的日常了。代码模型是如何具备强大的代码能力的呢?今天来学习下业界几个比较热门的代码模型。
【本文已在同名 微信公众号 / 知乎 / 个人博客linsight.cn 上线】
借助代码大模型进行开发几乎已经是每个开发人员的日常了。代码模型是如何具备强大的代码能力的呢?今天来学习下业界几个比较热门的代码模型。
【本文已在同名 微信公众号 / 知乎 / 个人博客linsight.cn 上线】
从目前的实践结果来看,从大模型通过裁剪、蒸馏等手段获取小模型,效果是比较好的,同时成本也相比直接从零预训练要低廉得多,而且也免去了大量收集数据和清洗数据的工作。
【本文已在同名 微信公众号 / 知乎 / 个人博客linsight.cn 上线】
标注数据总是缺乏的,特别是对于大规模预训练。因此无监督学习在大模型时代就更加重要了。相比有监督的训练,无监督学习不需要把最终结果都reduce到一个单一的label,因此模型也能学到更丰富的数据特征。
【本文已在同名 微信公众号 / 知乎 / 个人博客linsight.cn 上线】
Transformer在自然语言的应用很成功,而在CV领域的崛起相对来说就比较慢,毕竟Transformer最初是为自然语言设计的。
【本文已在同名 微信公众号 / 知乎 / 个人博客linsight.cn 上线】
【本文已在同名 微信公众号 / 知乎 / 个人博客linsight.cn 上线】
InternLM系列模型的参与方有上海AI实验室、商汤、香港中文大学,以及复旦和上交。主力应该是前两个,InternLM中的Intern这个名字也是继承自它们之前的视觉模型项目的名字。
【本文已在同名 微信公众号 / 知乎 / 个人博客linsight.cn 上线】
最近在做端侧模型和数据合成的工作,微软的phi系列是受到关注比较多的一个小规模模型,整理一下细节,看看有什么可以借鉴使用的。
【本文已在同名 微信公众号 / 知乎 / 个人博客linsight.cn 上线】
移动设备对端侧模型的需求日益显现,语言模型先做大后做小的趋势和之前CNN的发展历程相似。Meta提出的MobileLLM就是专门为移动设备而生,主要是125M和350M规模的模型。(让人想起七八年前的MobileNet)
【本文已在同名 微信公众号 / 知乎 / 个人博客linsight.cn 上线】
之前苹果在WWDC24发布了包含多个强大模型的Apple Intelligence系统,苹果刚刚最新发出来的技术报告《Apple Intelligence Foundation Language Models》介绍了关于其中两个模型的一些细节 -- 端侧使用的,大小约3B的AFM-on-device,和云侧使用的更大模型AFM-server(AFM=Apple Foundation Model)。报告里没有给出AFM-server的规模。
【本文已在同名 微信公众号 / 知乎 / 个人博客linsight.cn 上线】
最近苹果的DCLM和Llama-3.1技术报告都提到了model soup:《Model soups: averaging weights of multiple fine-tuned models improves accuracy without increasing inference time》。
【本文已在同名 微信公众号 / 知乎 / 个人博客linsight.cn 上线】
最近Llama-3.1-405B模型放出,从官方的评测结果看,已经超越了GPT-4-0125,基本达到顶尖闭源模型Claude-3.5-Sonnet和GPT-4-OMNI的水平;而更小规模的8B和70B模型相比其他同规模模型优势更加明显:
【本文已在同名 微信公众号 / 知乎 / 个人博客linsight.cn 上线】
目前已经有很多优秀的dense大模型,那么要通过MoE获得更强的模型,用已有的dense模型进行初始化是一个自然的想法。Google的sparse upcycling对此做了一些实验,由于实验是在2022年做的,模型用的是T5系列语言模型和Vision Transformer系列视觉模型。