文獻分享:Transformer Without Normalization

此影片分享了 Meta 團隊在 CVPR 2025 發表的文獻 Transformer Without Normalization。 該團隊打破固有對 Normalization Layer 必要性的認知,透過所設計的 Dynamic Tanh 取代 Normalization Layer 並取得了更好或者接近的性能。 值得學習的部分是本篇對自實驗進行上的嚴謹性,提供了從觀察到特性、驗證假設、理解算法侷限性很好的示範。