アテンション機構 - AIの文脈理解
Step 1: 同じ単語、違う意味
「Amazon」という同じ単語でも、文脈によって全く異なる意味を持ちます。
同じ「Amazon」でも意味が違う!
文章1:
私
は
Amazon
に
旅行
したい
→ 南米の熱帯雨林
(地名・場所)
文章2:
私
は
Amazon
で
本
を
買った
→ オンラインショップ
(ECサイト・企業)
❓ AIはどうやって文脈を理解するのか?
同じ「Amazon」でも、周りの単語によって意味が変わる
答え: アテンション機構
Transformerモデルの心臓部
アテンションの2つの役割
1
注目する単語を選ぶ
ある単語の意味を理解するために
周りのどの単語に「注目」すべきか
を判断する
例: 「Amazon」→「旅行」に注目!
2
意味を更新する
注目した単語の情報を使って
元の単語の意味(ベクトル)を
文脈に合わせて更新する
例: 「Amazon」→ 場所の意味に更新
イメージ図: 「私はAmazonに旅行したい」
私
は
Amazon
に
旅行
したい
強いアテンション
文脈1: 「私はAmazonに旅行したい」
私
は
Amazon
に
旅行
したい
「Amazon」が各単語にどれだけ注目するか
私
5%
は
3%
に
12%
旅行
65%
したい
15%
意味の更新プロセス
更新前: Amazon
曖昧な状態
[0.3, -0.2, 0.5, ...]
+ 旅行の情報
更新後: Amazon
「場所」の意味に!
[0.8, -0.1, 0.9, ...]
🌴
熱帯雨林
南米の地域
「旅行」という単語に強く注目することで、
「Amazon」の意味が「場所」の方向に更新される
企業
曖昧
場所
文脈2: 「私はAmazonで本を買った」
私
は
Amazon
で
本
を
買った
「Amazon」が各単語にどれだけ注目するか
私
4%
は
2%
で
10%
本
14%
を
5%
買った
65%
意味の更新プロセス
更新前: Amazon
曖昧な状態
[0.3, -0.2, 0.5, ...]
+ 買ったの情報
更新後: Amazon
「企業」の意味に!
[-0.7, 0.6, 0.2, ...]
📦
ECサイト
オンラインショップ
「買った」という単語に強く注目することで、
「Amazon」の意味が「企業・ショップ」の方向に更新される
企業
曖昧
場所
Self-Attention: 全単語が同時に全単語を見る
「私はAmazonに旅行したい」の各単語が、他のすべての単語にどれだけ注目するか
注目する側 (Query)
注目される側 (Key)
私
は
Amazon
に
旅行
したい
私
は
Amazon
に
旅行
したい
0.40
0.15
0.10
0.10
0.15
0.10
0.25
0.40
0.10
0.08
0.10
0.07
0.05
0.03
0.05
0.12
0.65
0.10
← 旅行に強く注目!
0.10
0.08
0.30
0.22
0.18
0.12
0.08
0.05
0.40
0.17
0.20
0.10
0.18
0.10
0.12
0.10
0.30
0.20
全行が同時に各列との注目度を計算(並列処理)
Self-Attentionの仕組み
• 各行は「その単語が他の単語にどれだけ注目するか」を表す(各行の合計 = 1.0)
• この計算が全6単語について「同時に」行われる → 並列処理の威力
• Amazonの行を見ると「旅行」に0.65と最も強く注目していることがわかる
アテンションの結果: 文脈による意味の確定
「私はAmazonに旅行したい」の場合
Amazon(Query)→ 旅行(Key)= 0.65 が表内最高値
→ 「Amazon」の意味が「南米の熱帯雨林」方向に更新される
「に」+「旅行」パターン
• AIの判定:「このAmazonはECサイトではなく地名」
• 更新後のAmazonベクトル → 「場所・地域」の特徴
• 続きの文章を生成する場合:
ジャングル
川
探検
熱帯雨林
南米アマゾン関連の単語が出やすくなる
「で」+「買った」パターン
• AIの判定:「このAmazonは地名ではなくECサイト」
• 更新後のAmazonベクトル → 「企業・通販」の特徴
• 続きの文章を生成する場合:
配送
レビュー
Prime
カート
通販関連の単語が出やすくなる
これがアテンションによる「文脈理解」
同じ「Amazon」という単語でも、周囲の単語パターンによって
意味が確定し、以後の文脈はその意味を前提に展開される
アテンションの画期的な点: 並列処理
従来の方法 (RNN/LSTM)
単語を1つずつ順番に処理
私
は
Amazon
...
⏱️ 時間がかかる
前の単語の処理が終わるまで待つ
長い文章ほど遅くなる
❌ 大規模データの学習が困難
Transformer (アテンション)
全単語を同時に並列処理
私
は
Amazon
...
同時処理
⚡ 高速処理
全単語を一度に処理
✓ 大規模データの学習が可能に!
これにより実現したこと
インターネット上の膨大なテキストデータを
高速に学習できるようになり、GPTやClaudeなどの大規模言語モデル(LLM)が誕生
RNN
1980s
LSTM
1997
Transformer
2017
GPT/BERT
2018-
ChatGPT
2022
※ここでの「学習」は、事前に固定された学習データではなく、ユーザーとの会話中に
リアルタイムで文脈を理解し処理することを指します(推論時のアテンション計算)
アテンション機構 まとめ
入力
曖昧な単語
「Amazon」
(どっちの意味?)
アテンション
周りの単語に注目
「旅行」or「買った」
に強く反応
意味の更新
ベクトルを更新
文脈に合わせて
意味を調整
出力
🌴
or
📦
アテンションの3つのポイント
1. 注目
重要な単語を見つける
2. 更新
文脈に合わせて意味を調整
3. 並列処理
高速で大規模学習が可能
アテンション機構により、AIは文脈を理解し、
同じ単語でも状況に応じた意味を把握できる!
💡
補足:
この資料は入門者向けのイメージ説明です。実際の技術詳細は異なる部分があります。
興味がある方は「Self-Attention」「Transformer」で検索してみてください。
Step 1 / 8
▲ 前へ
▼ 次へ