Self-directed Learning

KIMI K2 开放智能体 1（论文翻译）

Kimi Team K2 技术报告摘要我们介绍Kimi K2，一种混合专家（MoE）大语言模型，拥有320亿激活参数和1万亿总参数。我们提出了MuonClip优化器，该优化器在Muon的基础上进行改进，采用了一种新颖的QK-clip技术来解决训练不稳定性问题，同时保留了Muon的高级token效率。基于MuonClip，K2在155亿个token上进行了预训练，且未出现任何损失峰值。在后训练阶段，K2经历了多阶段后训练过程，其中包括大规模智能体数据合成管道和联合强化学习（RL）阶段，通过与真实和合成环境的交互，模型提升了其能力。Kimi K...

2025/09/12

KIMI K2

LLM学习之路-AI基础架构 1

在多GPU系统上分配和部署大型语言模型的难点现代大型语言模型（LLMs），特别是基于Transformer架构的模型，其指数级的规模增长已经超出了单个GPU的内存和计算能力。这使得将大型模型分布到多个GPU上成为必要。在这些多GPU设置中，每个GPU管理特定的参数子集和计算任务，从而实现有效的并行化和分布式训练。多GPU大型语言模型训练：模型分割、并行化和开销多GPU大型语言模型训练的主要难点在于高效地分割和同步跨GPU的庞大模型参数、激活值和梯度，以确保分布式计算的连贯性和有效性。图11展示了基于Transformer模型的GPU间分区策略和张量同步，强调了自注意力机制和前馈神经...

2025/08/11

AI infra

LLM学习之路-从RNN到Transformer 3

接上一篇《LLM学习之路-从RNN到Transformer 2》从Transformer到大型语言模型Transformers的引入标志着序列建模的一次关键转变，它用可并行化的自注意力机制取代了RNN中的循环计算。这一创新使模型能够同时分析序列中所有标记之间的关系，加快了计算速度，并支持更深、更复杂的神经网络架构的开发。这一转变也成为GPU等硬件加速器广泛采用的关键转折点，因为其底层计算模式与大规模并行硬件高度契合。大规模训练与参数优化基于Transformer的可扩展性，研究人员开发了大型语言模型（LLMs），通过增加参数数量并在大规模、多样化的数据集上进行广泛训练，扩展了模型的能...

2025/08/07

RNN Transformer

LLM学习之路-从RNN到Transformer 2

接上一篇《LLM学习之路-从RNN到Transformer 1》从递归到并行性：Transformer的变革2017年，随着Transformer架构的引入，序列建模取得了重大突破，这标志着彻底脱离了RNN和传统Seq2Seq模型中固有的递归计算结构。Transformer完全放弃了递归，采用了一种完全基于注意力（attention）的设计。特别是，Transformer利用了自注意力机制（self-attention），它能够同时计算序列中所有位置之间的交互。与嵌入在RNN中的传统注意力机制不同，自注意力机制可以并行独立地计算所有序列位置的注意力分数，而不依赖于先前计算的状态或位置之间...

2025/08/06

RNN Transformer

LLM学习之路-从RNN到Transformer 1

LLM自学基础：时间序列数据与序列建模在讨论序列模型之前，简要概述人工智能模型训练和推理的基础方法是有益的，特别是关于时间序列数据的处理。人工智能训练和推理方法的简要概述为解决复杂的现实问题，人工智能通常会将输入数据转化为数学表征形式。例如，将数据映射到特定维度坐标系中的数字、向量或矩阵。如图1所示，这些经过转换的数据表征能帮助建立决策边界，从而根据可识别的模式将输入数据划分到不同类别。训练过程实质是AI模型在参数空间中探索，通过优化决策边界来提升其清晰度与有效性；而推理则指根据既定决策边界判定新输入数据的类别，其准确性通过模型预测结果与实际结果的相似度来衡量。在人工智能模型训练过...

2025/08/04

RNN Transformer

LLM 重新排序和两阶段检索

写在前面评估信息检索系统或搜索引擎性能时使用的两个关键指标是准确度和召回率。准确度衡量检索结果的准确性，而召回率衡量查询结果的完整性或全面性。也就是说：精确度 = 检索到的相关文档数量 / 检索到的总文档数量召回率 = 检索到的相关文档数量 / 语料库中的总相关文档数量高精度意味着系统能够成功返回大部分相关结果并最小化误报，而高召回率意味着系统能够找到相当比例的相关文档，从而减少漏报或错过重要文档的情况。精确度-召回率权衡当人们使用信息检索系统时，他们可能会遇到一个被称为“精确度-召回率权衡”的概念。这涉及到精确度和召回率之间的微妙平衡，这...

2024/04/12

REG Reranker

在应用中使用小模型

一直以来我都在尝试利用 Microsoft Promptflow 来实现大模型和小模型的协同工作，但在云端利用昂贵的GPU来运行小模型并不是我最终的想法，于是便开始尝试使用本地GPU，甚至是CPU来进行小模型的推理。很有意思的是有很多人和我的想法一致，于是我整理了以下一些资料。 WasmEdge + WASI-NN plug-in WasmEdge 是一个轻量级、高性能、可扩展的WebAssembly运行时，适用于云原生、边缘和去中心化应用。它支持无服务器应用、嵌入式函数、微服务、用户定义函数、智能合约和物联网设备。WasmEdge目前是CNCF（云原生计算基金会）的沙盒项目。Wasm...

2024/02/06

SLM WasmEdge

创建Azure Llama2 虚拟机

具体步骤在登录Azure Machine Leaning Studio之前，需要在Azure门户上新建一个资源组登录Azure Machine Leaning Studio 新建workspace，选择之前创建的资源组进入到新的workspace，选择Model catalog，可以看到Introducing Llama2标签页选择需要创建的模型，使用Real-time endpoint的方式部署 Real-time endpoint 以及 Batch endpoint 联机终结点(Real-time endpoint)：用于进行实时推理，当调用终结点时，会在终结点的响...

2023/09/09

Azure Infra VM Llama2

Azure&Web3项目问题总结(Next.js)

Azure&Web3项目问题总结(Next.js)(这是我在微软的第一个Web3项目，也是最后一个Web3项目，但总算也有一些收获)辛苦了几个月，第一个Web3项目终于要落地了。同时也陆陆续续收到了项目上的各种反馈，跟着开发团队的大佬搞了两个通宵，又是一把心酸血泪史。先说项目技术栈：1、前端使用React框架Nextjs + TypeScript，混合模式SSR渲染 2、区块链使用长安链，但并非公链，是以长安链技术为基础的区块链服务 3、云服务使用Azure，前端应用和区块链节点都部署在Azure云服务中目前问题主要集中在前端应用部署到Azure服务时遇到的：1、Azure ...

2022/11/09

Azure Developer

使用 Azure Devops pipeline的 Web3 Devops（2）

在上一篇文章中，设计了pipelines的6个阶段，并完成了build部分的实现： 1、build：编译、测试和打包工件 2、dev：部署基础设施、合约和前端 3、dev_validation：等待手动验证dev并删除dev环境 4、qa：部署基础设施、合约和前端 5、qa_validation 等待手动验证 qa 并删除 qa 环境 6、prod：部署基础设施、合约和前端整体看下来大概是这样一个流程：部署的时候遇到个问题，所以在项目中又加入了一个API，详细问题后面再讲。 IaC (Infrastructure as Code)因为测试项目的前端Dapp比较简单，所以使用A...

2022/09/18

Azure Devops