Linsight

聊聊技术,也聊聊其他的

【本文已在同名 微信公众号 / 知乎 / 个人博客linsight.cn 上线】


现在长思考模型助力agent,能够循环进行复杂任务的拆解和执行。为了告诉模型任务和能够调用的工具/当前观察到的信息等,输入prompt也是越来越长,10k甚至更长的输入已经是普遍的状况。虽然推理框架也越来越强,不过本着能省一点是一点想法,prompt压缩也是个值得考虑的方向,特别是在偏垂域的场景。

阅读全文 »

【本文已在同名 微信公众号 / 知乎 / 个人博客linsight.cn 上线】


看DeepSeek-VL2细节之前,先简单介绍下DeepSeek-VL2提到的recaption方案和visual prompt数据。

阅读全文 »

【本文已在同名 微信公众号 / 知乎 / 个人博客linsight.cn 上线】


在看Qwen2.5-1M的方案之前,先把Qwen2.5-1M中用到的技术,DCA,MInference 1.0和chunked prefill学习一下。

阅读全文 »

【本文已在同名 微信公众号 / 知乎 / 个人博客linsight.cn 上线】


DeepSeek-R1以一己之力正面刚OpenAI和Anthropic。DeepSeek-R1能有这么强力的表现和DeepSeek-V3这个基模型的强大是分不开的。

阅读全文 »

【本文已在同名 微信公众号 / 知乎 / 个人博客linsight.cn 上线】


过年前这段时间好几个重磅工作相继发布,有深度求索的DeepSeek-V3、DeepSeek-R1、月之暗面的Kimi-K1.5,还有MiniMax的MiniMax-01、面壁智能的MiniCPM-o 2.6和智谱的GLM-Realtime,以及阶跃的Step-1o等,2025年才过了不到一个月,真·卷起来了。百花齐放的场景让人对AI充满期待,同时作为开发者也感到压力山大。

阅读全文 »

【本文已在同名 微信公众号 / 知乎 / 个人博客linsight.cn 上线】


最近由M-A-P、无限光年、墨尔本大学、复旦大学等机构共同开发的OpenCoder开源了模型和部分数据,并且后续还会有更多资料放出。先来学习下技术报告的内容。

阅读全文 »

【本文已在同名 微信公众号 / 知乎 / 个人博客linsight.cn 上线】


现在大模型的训练方法大部分都比较固定了,那么最重要的问题就是搞数据。真实世界的高质量数据虽然好用,但是成本高数量少,于是合成数据就成了一条很重要的路子。较新的专门模型如数学模型、代码模型或者阅读理解模型,基本上都已经使用上了大量的合成数据。这些领域的合成数据和训练的模型经过多次迭代,又会反哺下一代通用模型,左脚踩右脚直接起飞。Llama-3就是这么干的。

阅读全文 »
0%