attention的一些关系图

185 字
1 分钟
attention的一些关系图
graph TD A[字符串: 'hello'] -->|encode| B[字节: b'hello'] B -->|decode| A C[整数列表: 104,101,108,108,111] -->|bytes| B B -->|list| C D[bytearray] -->|bytes| B B -->|bytearray| D F[字符串: 你好] -->|encode utf-8| G[字节: utf-8编码] G -->|decode utf-8| F

编码成字节,解码成字符。

graph TD subgraph "Post-Norm(原始Transformer)" A1[输入x] --> B1[多头注意力] B1 --> C1[Dropout] A1 --> D1[残差连接 +] C1 --> D1 D1 --> E1[LayerNorm] E1 --> F1[FFN前馈网络] F1 --> G1[Dropout] E1 --> H1[残差连接 +] G1 --> H1 H1 --> I1[LayerNorm] I1 --> J1[输出] end subgraph "Pre-Norm(现代变体)" A2[输入x] --> B2[LayerNorm] B2 --> C2[多头注意力] C2 --> D2[Dropout] A2 --> E2[残差连接 +] D2 --> E2 E2 --> F2[LayerNorm] F2 --> G2[FFN前馈网络] G2 --> H2[Dropout] E2 --> I2[残差连接 +] H2 --> I2 I2 --> J2[输出] end

支持与分享

如果这篇文章对你有帮助,欢迎分享给更多人或赞助支持!

赞助
attention的一些关系图
https://jiheweihuan.github.io/posts/attention-relations/
作者
几何为欢
发布于
2026-03-10
许可协议
CC BY-NC-SA 4.0
Profile Image of the Author
几何为欢
CUMT 2025级大一在读 人工智障专业 CTF/ACM入门ing 希望成为CS/AI人才喵!
公告
欢迎来到我的博客!这是一则示例公告。
音乐
封面

音乐

暂未播放

0:00 0:00
暂无歌词
分类
标签
站点统计
文章
13
分类
7
标签
19
总字数
6,280
运行时长
0
最后活动
0 天前

目录