attention的一些关系图
185 字
1 分钟
attention的一些关系图
graph TD
A[字符串: 'hello'] -->|encode| B[字节: b'hello']
B -->|decode| A
C[整数列表: 104,101,108,108,111] -->|bytes| B
B -->|list| C
D[bytearray] -->|bytes| B
B -->|bytearray| D
F[字符串: 你好] -->|encode utf-8| G[字节: utf-8编码]
G -->|decode utf-8| F
编码成字节,解码成字符。
graph TD
subgraph "Post-Norm(原始Transformer)"
A1[输入x] --> B1[多头注意力]
B1 --> C1[Dropout]
A1 --> D1[残差连接 +]
C1 --> D1
D1 --> E1[LayerNorm]
E1 --> F1[FFN前馈网络]
F1 --> G1[Dropout]
E1 --> H1[残差连接 +]
G1 --> H1
H1 --> I1[LayerNorm]
I1 --> J1[输出]
end
subgraph "Pre-Norm(现代变体)"
A2[输入x] --> B2[LayerNorm]
B2 --> C2[多头注意力]
C2 --> D2[Dropout]
A2 --> E2[残差连接 +]
D2 --> E2
E2 --> F2[LayerNorm]
F2 --> G2[FFN前馈网络]
G2 --> H2[Dropout]
E2 --> I2[残差连接 +]
H2 --> I2
I2 --> J2[输出]
end
支持与分享
如果这篇文章对你有帮助,欢迎分享给更多人或赞助支持!
attention的一些关系图
https://jiheweihuan.github.io/posts/attention-relations/