随想

这里收集一些日常随想与片段式的灵感。

关于 llm 的一些想法

关于多模态, 我一直觉得把其他模态映射回语义空间太过生硬, 会丧失很多很多信息(不过 Qwen3VL 竟然能有 3D 感知能力, 有意思, 回头研究一下), 并不是一个优美的解决方案.
1. 我认为视频, 图片等视觉模态相比于语言文字有自己本身的很多特点和信息, 不能强行套用语言模型的训练方法
2. 为什么一定要给多模态数据打标注然后映射回语义空间呢? 为什么不能找一种针对多模态数据(视觉数据)的自己的范式呢? 只是感觉与这种 LVM 交互的方式有些奇怪, 不知道该如何交互. 毕竟语言还是人类交流的最基本方式
3. 如果实现了 2, 能不能实现一个反向的 vision tower, 把语义空间映射回视觉模态数据呢?
最近又好好看了看 Transformer, 我认为关于其计算和并行的效率方面, 自回归或许还是一个亟需解决的问题? 因为我觉得自回归本质上跟 RNN 很像, 还是需要依赖时序上的先前的数据, 无法实现并行计算, 有没有什么好的解决方法呢?
同样是看 Transformer 想到的, 没想到在位置编码这个领域, 可学习位置编码竟然败给了 RoPE, 我觉得有些不能接受, 似乎可学习的编码/参数实现大一统我才会感觉比较满意 hhhh 2025-10-04 内蒙旅行途中