这里收集一些日常随想与片段式的灵感。
关于 llm 的一些想法
- 关于多模态, 我一直觉得把其他模态映射回语义空间太过生硬, 会丧失很多很多信息(不过 Qwen3VL 竟然能有 3D 感知能力, 有意思, 回头研究一下), 并不是一个优美的解决方案.
- 我认为视频, 图片等视觉模态相比于语言文字有自己本身的很多特点和信息, 不能强行套用语言模型的训练方法
- 为什么一定要给多模态数据打标注然后映射回语义空间呢? 为什么不能找一种针对多模态数据(视觉数据)的自己的范式呢? 只是感觉与这种 LVM 交互的方式有些奇怪, 不知道该如何交互. 毕竟语言还是人类交流的最基本方式
- 如果实现了 2, 能不能实现一个反向的 vision tower, 把语义空间映射回视觉模态数据呢?
- 最近又好好看了看 Transformer, 我认为关于其计算和并行的效率方面, 自回归或许还是一个亟需解决的问题? 因为我觉得自回归本质上跟 RNN 很像, 还是需要依赖时序上的先前的数据, 无法实现并行计算, 有没有什么好的解决方法呢?
- 同样是看 Transformer 想到的, 没想到在位置编码这个领域, 可学习位置编码竟然败给了 RoPE, 我觉得有些不能接受, 似乎可学习的编码/参数实现大一统我才会感觉比较满意 hhhh 2025-10-04 内蒙旅行途中
近期觉得亟需的一些必备技能
- torch 中的维度
- torch 中的广播机制
- 手推一些反向传播以及基本数学公式(backprop 视频中的内容)
- python 处理数据, 尤其是json 相关(或许可以看看 data100?)
- Transformer 库的细节
- 训练模型/微调模型 2025-10-01 家中自学 NN Zero to Hero 时有感