あとtransformersの理解がろくにできてなかったのでここで解説しておく
数式だけ見て理解できたとは思わない方が良い
まずtransformersは
「コンテキストのトークン同士の関係だけ理解すれば
あらゆるタスクを予測できる」
ということを示しているのよ
まずこの部分をちゃんと理解できてない人が多い
これは実際驚くべきことだ
この点においてセルフアテンションはソースターゲットアテンションとは全く別物だと理解すべき
ソースターゲットアテンションはは別のコンテキストを必要とするからね