开云官网切尔西赞助商只靠着卡帕西手敲的 8000 行代码-开云官网kaiyun切尔西赞助商 (中国)官方网站登录入口

文｜金鹿

裁剪｜博阳

10 月 14 日凌晨，AI 范围闻明巨匠安德烈 · 卡帕西（Andrej Karpathy）发布了名为 "nanochat" 的新开源花样，他描写这是我方写过的 " 最不受约束 " 的荒诞花样之一。

与早期仅涵盖预寻查的 nanoGPT 不同，新的 nanochat 是一个极简的、从零运转的全栈寻查 / 推理进程，通过依赖项最少的单一代码库杀青了一个绵薄版 ChatGPT 的完整构建。

nanochat 的使用进程相等简略：你只需要租用云 GPU 劳动器，运行单个剧本，最快 4 小时后就能在访佛 ChatGPT 的网页界面中与我方寻查的大说话模子（LLM）对话。

nanochat 是什么？

从卡帕西提供的旨趣来看，Nanochat 打包了从零运转制造一个 Chatbot 所需的悉数门径和用具，这其中包括：

1. 数据准备 : 从原始收罗文本（如 FineWeb 数据集）运转，创建分词器（tokenizer），把海量文本酿成模子能结实的数字。

2. 模子预寻查 : 在大规模数据上寻查一个基础的 Transformer 模子，让它学习说话的语法、事实和基本推理才智。这是最耗时、最中枢的一步。

3. 对皆微调 :

a. 提醒微调 : 使用高质地的问答、对话数据，教模子怎样像一个助手通常校服提醒、与东谈主对话。

b. 强化学习 : （可选阶段）通过奖励和处分，进一步进步模子在特定任务（如数学解题）上的发扬。

4. 模子推理 : 提供了一个高效的引擎，让你可以在敕令行或一个访佛 ChatGPT 的网页界面中，与你亲手寻查出来的模子进行及时对话。

5. 评估 ( 寻查完成后，系统会自动生成一份详备的"收货单"（申报），展示模子在多个递次测试（如数学、代码、学问推理）上的发扬。

Karpathy 之前的nanoGPT花样主要蔼然第 2 步：模子预寻查。它是一个极简的 GPT 模子寻查代码，方针是为了素养，让大家结实大模子是奈何寻查出来的。

而nanochat则是一个全栈（Full-Stack）花样，它不仅包含了 nanoGPT 的预寻查部分，还补全了之后的所关联键门径（提醒微调、强化学习、推理、UI 界面），最终委派一个可以骨子对话的聊天机器东谈主。

而杀青这一切，只靠着卡帕西手敲的 8000 行代码。

卡帕西作念这个 nanochat 的意旨是什么呢？

领先是证明和学习，它是现在结实"怎样从零构建一个 ChatGPT "的最勤学习贵府。它让无为拓荒者和盘问者有契机用相对便宜的本钱亲手"烹调"出一个属于我方的袖珍聊天模子，并完整地体验从一堆原始文本到一个智能对话助手的全过程。

其次是提供一个盘问和执行平台。为盘问东谈主员提供了一个轻量级、可控、可复现的执行平台。他们可以在这个框架上快速测试新的模子架构、寻查方法或对皆时刻，而不消动用不菲的大规模计较资源。

终末，X 上的网友还发掘了它的新可能，他认为这套系统富裕可以成为硬件评估的新基准。

这确凿太棒了。这应该成为硬件评估的新基准——咱们只需申报一个有序三元组：

● 端到端寻查总本钱（好意思元）

● 端到端寻查总耗时（分钟）

● 在特定测试集上的详细性能发扬

何况悉数这个词过程都具备高度可复现性。

100 好意思元，从新寻查一个 AI

那这个 Nanochat 到底能多省钱？

● 仅需约 100 好意思元（在 8XH100 节点上寻查约 4 小时），你就能寻查出一个袖珍 ChatGPT 克隆版，可以进行基本对话，创作故事诗歌，回答简略问题

（在网页界面中，泄露的是一个耗时 4 小时、徒然 100 好意思元的 nanochat 模子进行对话。还是可以写诗了。）

（nanochat 申报卡片中展示了此次 100 好意思元"速通"寻查所生成的部分回顾性打算。举座成果很可以。）

● 寻查约 12 小时即可在 CORE 打算上特出 GPT-2

● 淌若将预算进步到约 1000 好意思元（寻查 41.6 小时），模子会变得愈加连贯，约略措置简略的数学和编程问题，并通过多项遴荐题测试。举例，一个深度为 30 的模子经过 24 小时寻查（计较量相当于 GPT-3 Small 125M 或 GPT-3 的 1/1000），在 MMLU 上能达到 40 多分，在 ARC-Easy 上达到 70 多分，在 GSM8K 上达到 20 多分。

卡帕西切身揭秘背后时刻

在 X 平台上，卡帕西和网友伸开问答对话，公开了 nanochat 的幕后拓荒笃定和干系时刻。

以下为问答精选：

问：这个模子的寻查 / 基础架构是基于什么样的模子遐想？

卡帕西：nanochat 的模子架构基本上与 Meta Llama 模子访佛，但进行了一些简化，并给与了一些来自其考订版 modded-nanoGPT 花样的遐想念念路。其标的是为此类规模的模子建设一个"慎重的基线"。

主要架构特征包括：

● Dense Transformer（繁多模子 Transformer）

● Rotary Embeddings（旋转位置编码），无显式位置镶嵌（positional embeddings）

● QK Norm（对 Query 和 Key 向量进行归一化）

● Embedding 与 Unembedding 权重不分享（untied weights）

● 在 Token Embedding 之后进行归一化处理

● MLP 使用 ReLU² 激活函数

● RMSNorm 中无可学习参数

● 线性层中无偏置项（bias-free linear layers）

● 收受多查询防护力机制（Multi-Query Attention, MQA）

● 输出层使用 Logit Softcap 时刻

● 优化器收受的是 Muon + AdamW 组合，这很猛进度上受到了 modded-nanoGPT 的影响。卡帕西提到，他贪图异日通过全心颐养 Adam 优化器每个模块的学习率来尝试移除 Muon，但现在这项责任尚未完成。

问：我是否可以用我方的数据来寻查它？比如我悉数的 Notion 札记、健康数据，以及和其他大模子的对话纪录？就像打造一个实在懂我的个东谈主聊天机器东谈主？

卡帕西：我认为这个代码库并不合适这个用途。你可以把这些微型模子设想成幼龄儿童（比如幼儿园阶段），它们确乎不具备那些大型模子的原生身手。淌若你用我方的数据对它进行微调 / 寻查，可能会取得一些看似师法你文风的意念念陈诉，但最终成果会显得很粗拙。

要杀青你期待的成果，可能需要这么的进程：先整理原始数据，在此基础上进行大量合成数据重写（这门径很难办，不确定性高，属于盘问规模），然后采取顶尖开源大模子进行微调。过程中可能还需要搀和大量预寻查数据，以免在微调过程中亏本模子原有的智能水平。

因此，说真话，要让这套进程好意思满运作于今仍属于前沿盘问范围。

现在最可行的非时刻决策，是把悉数贵府导入 NotebookLM 这类用具，它可通过 RAG 时刻（即分块检索参考）处理你的数据。你的信息默契过高下文窗口授递给模子，但不会编削模子自己的权重。诚然模子不会实在 " 意志你 "，但这可能是现时最容易杀青的近似决策了。

问：这些代码有若干是你手写的？

卡帕西：代码基本上全是手写的（合作 Tab 键自动补全）。我尝试过几次使用 Claude/Codex 这类 AI 编程助手，但成果富裕弗成开云官网切尔西赞助商，总体上反而帮不上忙。可能我的代码库作风太偏离它们寻查数据的作风了。

开云官网切尔西赞助商只靠着卡帕西手敲的 8000 行代码-开云官网kaiyun切尔西赞助商 (中国)官方网站登录入口

热点资讯

相关资讯

开云官网切尔西赞助商只靠着卡帕西手敲的 8000 行代码-开云官网kaiyun切尔西赞助商 (中国)官方网站 登录入口

热点资讯

相关资讯

开云官网切尔西赞助商只靠着卡帕西手敲的 8000 行代码-开云官网kaiyun切尔西赞助商 (中国)官方网站登录入口