Paper Notes¶

读论文笔记归档。每篇论文有结构化的中文叙述总结，覆盖 motivation、方法、结果，以及一段直率的批判性讨论。

浏览方式¶

部署与推理过程中沉淀的经验和踩坑记录，区别于论文总结。

TensorRT MHA：输入尽量静态 + sequence length 对齐到 8 (2026-06-05) TensorRT 跑 MHA 时输入最好静态、seq_len 对齐到 8 的倍数，否则精度与性能双重踩坑。实战案例：同一模型 DriveOS 703 转换后精度与 PyTorch 一致，705 不一致，根因是某个 seq_len = 900（非 8 倍数），padding 对齐到 904 后恢复——疑似不同 TRT 版本选到了不同的 fused MHA kernel，把潜在的对齐假设暴露了出来。
MuonClip / QK-Clip 与 QKV bias：为什么 q/k projection 要 bias=False (2026-06-08) QK-Clip 只缩放权重 W_q/W_k、从不碰 bias，它隐含假设 Q/K 无 bias（Kimi/DeepSeek/LLaMA/Qwen3 皆 bias=False）。给一个带 bias 的 attention（如 FlatFormer 默认 nn.Linear(bias=True)）套上 Muon + QK-Clip，网络会把 logit 幅度藏进 QK-Clip 够不到的 bias 路径——weight 被反复缩到学死、qkv bias 越长越大，skip connection 还会掩盖问题。修复：q/k（最好连 v/o）设 bias=False，或改用 QK-Norm。