为什么我还是无法理解transformer?

2025-06-24 17:20:13

不要想的太过复杂,就只有随机数生成的三个矩阵,原始输入已经通过矩阵相乘关联在三个随机数矩阵中,再通过一些代数游戏得到每个token对于整体输入序列的注意力权重矩阵,再和另外一个随机数矩阵进行线性的代数变化即可。

反向传播更新的是这三个矩阵的权重,三个矩阵的维度设计也是为了符合线性代数的运算。

总之这个就是一个巧妙的线性代数游戏,没有什么复杂的逻辑问题。

为什么我还是无法理解transformer?
广告位810*200
相关阅读
为什么程序员们愿意在GitHub上开源自己的成果给别人免费使用和学习?

为什么程序员们愿意在GitHub上开源自己的成果给别人免费使用和学习?

我在很早就有了一个 GitHub 账号(在18年,当时我才小...

2025-06-24
歼20速度接近3马赫是什么水平?

歼20速度接近3马赫是什么水平?

其实有点不想吐槽…… 飞不到。 哥们,我们造的是歼击机,又...

2025-06-24
想买一个只用来睡觉,几乎不开的车,最低成本是多少?

想买一个只用来睡觉,几乎不开的车,最低成本是多少?

只睡觉不开的车,而且追求最低成本,首先排除掉油车的选项。 ...

2025-06-24
VScode怎么配置好golang?

VScode怎么配置好golang?

最近 Cursor 、Cline、 Trae 等 AI 工具...

2025-06-24
PHP初学者,我能不能使用PHP来开发桌面应用?

PHP初学者,我能不能使用PHP来开发桌面应用?

盘点一下这些年PHP在桌面应用方面的解决方案今天作者给大家盘...

2025-06-24