そしてtransformersは自身のベクトルをコンテキスト内の他のトークンとの関係で重みつけしたベクトルに「変換」する
自分自身を他者との関係によってより良いベクトルに「変換」するのよ
これがtransformersという名前の元になってるのだろう
transformersは入力と出力の次元が同じなのはそういうこと
そしてこの変換は予測タスクによって最適な変換となる
恐るべき技術だ
なにせ予測するためにはコンテキスト以外他に何も必要としないんだから