小米的移动UI多模态模型--MobileVLM

发表于 2025-01-29 分类于 CS ，多模态本文字数： 3.9k 阅读时长 ≈ 7 分钟

【本文已在同名微信公众号 / 知乎 / 个人博客linsight.cn 上线】

图文多模态模型的一大应用场景就是手机上的智能助手，一个能听能看能写能说的智能助手还是颇有吸引力的。

阅读全文 »

深度求索DeepSeek-R1详解

发表于 2025-01-23 更新于 2025-01-29 分类于 CS ， NLP ， LLM 本文字数： 7.4k 阅读时长 ≈ 13 分钟

【本文已在同名微信公众号 / 知乎 / 个人博客linsight.cn 上线】

过年前这段时间好几个重磅工作相继发布，有深度求索的DeepSeek-V3、DeepSeek-R1、月之暗面的Kimi-K1.5，还有MiniMax的MiniMax-01、面壁智能的MiniCPM-o 2.6和智谱的GLM-Realtime，以及阶跃的Step-1o等，2025年才过了不到一个月，真·卷起来了。百花齐放的场景让人对AI充满期待，同时作为开发者也感到压力山大。

阅读全文 »

多模态入门(五)--InternVL系列

发表于 2025-01-22 分类于 CS ，多模态本文字数： 9.6k 阅读时长 ≈ 17 分钟

【本文已在同名微信公众号 / 知乎 / 个人博客linsight.cn 上线】

最近InternVL2.5和Mini-InternVL-2相继发布。看了下，发现Intern模型在MLLM领域的相关工作还挺多的。

阅读全文 »

多模态入门(四)--CogVLM,VILA,MM1,MM1.5和Pixtral-12B

发表于 2025-01-15 分类于 CS ，多模态本文字数： 11k 阅读时长 ≈ 21 分钟

【本文已在同名微信公众号 / 知乎 / 个人博客linsight.cn 上线】

这篇主要包括CogVLM，VILA，MM1，MM1.5和Pixtral-12B。

阅读全文 »

多模态入门(三)--MiniGPT4,DeepSeekVL,InternVL系列和QwenVL系列

发表于 2024-11-28 更新于 2025-01-29 分类于 CS ，多模态本文字数： 10k 阅读时长 ≈ 19 分钟

【本文已在同名微信公众号 / 知乎 / 个人博客linsight.cn 上线】

这篇主要包括Qwen-VL系列，MiniGPT-4，InternVL和DeepSeek-VL，大致上按时间顺序排列。

阅读全文 »

多模态入门(二)--Flamingo,LLaVA系列和BLIP系列

发表于 2024-11-28 分类于 CS ，多模态本文字数： 11k 阅读时长 ≈ 19 分钟

【本文已在同名微信公众号 / 知乎 / 个人博客linsight.cn 上线】

这篇主要包括BLIP系列、LLaVA系列和Flamingo，大致上按时间顺序排列。

阅读全文 »

训练数据合成(三)

发表于 2024-11-17 更新于 2024-11-20 分类于 CS ， NLP ， LLM 本文字数： 17k 阅读时长 ≈ 31 分钟

【本文已在同名微信公众号 / 知乎 / 个人博客linsight.cn 上线】

书接上回，训练数据合成(二)，继续看一些数据合成相关工作，这次很多都是和代码相关的。

阅读全文 »

训练数据合成(二)

发表于 2024-11-16 分类于 CS ， NLP ， LLM 本文字数： 16k 阅读时长 ≈ 30 分钟

【本文已在同名微信公众号 / 知乎 / 个人博客linsight.cn 上线】

继续看一些重要的数据合成工作。

阅读全文 »

代码大模型(二)--OpenCoder

发表于 2024-11-12 分类于 CS ， NLP ， LLM 本文字数： 11k 阅读时长 ≈ 20 分钟

【本文已在同名微信公众号 / 知乎 / 个人博客linsight.cn 上线】

最近由M-A-P、无限光年、墨尔本大学、复旦大学等机构共同开发的OpenCoder开源了模型和部分数据，并且后续还会有更多资料放出。先来学习下技术报告的内容。

阅读全文 »

训练数据合成(一)

发表于 2024-11-09 分类于 CS ， NLP ， LLM 本文字数： 10k 阅读时长 ≈ 18 分钟

【本文已在同名微信公众号 / 知乎 / 个人博客linsight.cn 上线】

现在大模型的训练方法大部分都比较固定了，那么最重要的问题就是搞数据。真实世界的高质量数据虽然好用，但是成本高数量少，于是合成数据就成了一条很重要的路子。较新的专门模型如数学模型、代码模型或者阅读理解模型，基本上都已经使用上了大量的合成数据。这些领域的合成数据和训练的模型经过多次迭代，又会反哺下一代通用模型，左脚踩右脚直接起飞。Llama-3就是这么干的。

阅读全文 »

代码大模型(一)--业界现状

发表于 2024-10-25 分类于 CS ， NLP ， LLM 本文字数： 17k 阅读时长 ≈ 31 分钟

【本文已在同名微信公众号 / 知乎 / 个人博客linsight.cn 上线】

借助代码大模型进行开发几乎已经是每个开发人员的日常了。代码模型是如何具备强大的代码能力的呢？今天来学习下业界几个比较热门的代码模型。

阅读全文 »

多模态入门--CLIP

发表于 2024-10-01 更新于 2025-07-30 分类于 CS ，多模态本文字数： 3.4k 阅读时长 ≈ 6 分钟

【本文已在同名微信公众号 / 知乎 / 个人博客linsight.cn 上线】

放假了，小小水一篇多模态的经典之作，CLIP。

阅读全文 »

LLM高效预训练(二)

发表于 2024-09-29 更新于 2024-10-01 分类于 CS ， NLP ， LLM 本文字数： 13k 阅读时长 ≈ 23 分钟

【本文已在同名微信公众号 / 知乎 / 个人博客linsight.cn 上线】

从目前的实践结果来看，从大模型通过裁剪、蒸馏等手段获取小模型，效果是比较好的，同时成本也相比直接从零预训练要低廉得多，而且也免去了大量收集数据和清洗数据的工作。

阅读全文 »

CV入门--无监督学习

发表于 2024-09-14 分类于 CS ， CV 本文字数： 10k 阅读时长 ≈ 18 分钟

【本文已在同名微信公众号 / 知乎 / 个人博客linsight.cn 上线】

标注数据总是缺乏的，特别是对于大规模预训练。因此无监督学习在大模型时代就更加重要了。相比有监督的训练，无监督学习不需要把最终结果都reduce到一个单一的label，因此模型也能学到更丰富的数据特征。

阅读全文 »

CV入门--关于Vision Transformer

发表于 2024-09-13 更新于 2024-09-14 分类于 CS ， CV 本文字数： 11k 阅读时长 ≈ 20 分钟

【本文已在同名微信公众号 / 知乎 / 个人博客linsight.cn 上线】

Transformer在自然语言的应用很成功，而在CV领域的崛起相对来说就比较慢，毕竟Transformer最初是为自然语言设计的。

阅读全文 »

LLM预训练数据策略(一)

发表于 2024-09-04 分类于 CS ， NLP ， LLM 本文字数： 9.9k 阅读时长 ≈ 18 分钟

【本文已在同名微信公众号 / 知乎 / 个人博客linsight.cn 上线】

Code-Based English Models Surprising Performance on Chinese QA Pair Extraction Task

阅读全文 »

长文详解--LLM高效预训练(一)

发表于 2024-08-24 更新于 2024-08-28 分类于 CS ， NLP ， LLM 本文字数： 30k 阅读时长 ≈ 55 分钟

【本文已在同名微信公众号 / 知乎 / 个人博客linsight.cn 上线】

大模型在生产和生活中的应用越来越多，这对大模型开发者来说是利好消息。

阅读全文 »

InternLM系列模型

发表于 2024-08-20 分类于 CS ， NLP ， LLM 本文字数： 8.6k 阅读时长 ≈ 16 分钟

【本文已在同名微信公众号 / 知乎 / 个人博客linsight.cn 上线】

InternLM系列模型的参与方有上海AI实验室、商汤、香港中文大学，以及复旦和上交。主力应该是前两个，InternLM中的Intern这个名字也是继承自它们之前的视觉模型项目的名字。

阅读全文 »

一个模型支持智能助手系统

发表于 2024-08-17 分类于 CS ， NLP ， LLM 本文字数： 9.1k 阅读时长 ≈ 16 分钟

【本文已在同名微信公众号 / 知乎 / 个人博客linsight.cn 上线】

这是一篇关于三四年前的旧项目的回顾。

阅读全文 »

phi系列模型

发表于 2024-08-13 分类于 CS ， NLP ， LLM 本文字数： 7.1k 阅读时长 ≈ 13 分钟

【本文已在同名微信公众号 / 知乎 / 个人博客linsight.cn 上线】

最近在做端侧模型和数据合成的工作，微软的phi系列是受到关注比较多的一个小规模模型，整理一下细节，看看有什么可以借鉴使用的。

阅读全文 »

0%