あとtransformersの理解がろくにできてなかったのでここで解説しておく
数式だけ見て理解できたとは思わない方が良い
まずtransformersは
「コンテキストのトークン同士の関係だけ理解すれば
あらゆるタスクを予測できる」
ということを示しているのよ
まずこの部分をちゃんと理解できてない人が多い
これは実際驚くべきことだ
この点においてセルフアテンションはソースターゲットアテンションとは全く別物だと理解すべき
ソースターゲットアテンションはは別のコンテキストを必要とするからね
探検
ニュース
- 【高市首相】「日本人が日本各地を旅行するのも大切」 中国からの渡航自粛巡り ★2 [ぐれ★]
- 【野球】WBC、録画放送含め地上波中継なし (ネットフリックス) ★3 [阿弥陀ヶ峰★]
- 【東京・赤坂の“個室サウナ店夫婦死亡火災” 】妻を守るため…夫が妻に覆いかぶさって倒れる [ぐれ★]
- フィンランド首相、「つり目」投稿問題で日本向けに「心からお詫び」 ★4 [どどん★]
- 町山智浩「日本のパンダ経済効果は308億円」…「…いらない」と言ってる人達は、パンダで暮らす人々の損害補填してくれるのか…と問う★4 [少考さん★]
- 【テレビ】Ado、『ちびまる子ちゃん』OP主題歌を新たに担当 「おどるポンポコリン」歌唱アーティスト変更は6年8ヶ月ぶり [湛然★]
- 女とお泊まりした時にありがちなこと
- 俺達はいま屍の上に立っていることを忘れるなよ
- 高市「トランプ大統領に出来るだけ早く会いたい😢」なんか追い詰められてる模様 [931948549]
- 長くて面白い動画を上げてるYouTubeのチャンネル教えて
- 長 袖 を
- wind と wing の発音
