LLM Architect
模型架构 (MoE, RoPE, VLM, K2.5)
共 10 份讲义。
| 讲义 | 日期 | 来源 | 资源 |
|---|---|---|---|
| MoE 初步:参数量计算、Qwen3-30B-A3B、GQA 与 Sparse MoE | 2025 | 五道口纳什 | 阅读 · LaTeX · 备用 PDF |
| Qwen3 Dense vs. MoE 深度对比:等效宽度与 RMSNorm | 2025 | 五道口纳什 | 阅读 · LaTeX · 备用 PDF |
| K2 Thinking:Interleaved Thinking 交错推理 | 2025 | 五道口纳什 | 阅读 · LaTeX · 备用 PDF |
| Muon Optimizer:梯度白化与 SVD | 2025 | 五道口纳什 | 阅读 · LaTeX · 备用 PDF |
| RoPE 几何视角与 Qwen3 RoPE 计算细节 | 2025 | 五道口纳什 | 阅读 · LaTeX · 备用 PDF |
| RoPE Attention 远程衰减推导 | 2025 | 五道口纳什 | 阅读 · LaTeX · 备用 PDF |
| Attention Head 模式识别与 Attention Sink | 2025 | 五道口纳什 | 阅读 · LaTeX · 备用 PDF |
| VLM 多模态架构:Gemini vs Qwen3-VL vs K2.5 | 2025 | 五道口纳什 | 阅读 · LaTeX · 备用 PDF |
| Dive into K2.5:原生多模态与 Agent Swarm | 2026年1月27日 | 五道口纳什 | 阅读 · LaTeX · 备用 PDF |
| Prefill vs Decode、KV-Cache、GEMM vs GEMV | 2025 | 五道口纳什 | 阅读 · LaTeX · 备用 PDF |