မာတိကာသို့ ခုန်သွားရန်

သင်လိုအပ်သမျှက အာရုံစူးစိုက်မှုပဲ။

ဝီကီပီးဒီးယား မှ

An illustration of main components of the transformer model from the paper

“သင်လိုအပ်သမျှက အာရုံစူးစိုက်မှုပဲ။” (Attention Is All You Need) ဟူသော စာတမ်းသည် ၂၀၁၇ ခုနှစ်၊ ဇွန်လတွင် ထုတ်ဝေခဲ့သည့် သုတေသနစာတမ်းတစ်ခုဖြစ်သည်။ ဤစာတမ်းကို Google မှ သုတေသီများဖြစ်သည့် Ashish Vaswani၊ Noam Shazeer၊ Niki Parmar၊ Jakob Uszkoreit၊ Llion Jones၊ Aidan N. Gomez၊ Łukasz Kaiser နှင့် Illia Polosukhin တို့က ရေးသားခဲ့သည်။ ၎င်းသည် သဘာဝဘာသာစကား ပြုပြင်ထိန်းသိမ်းခြင်း (Natural Language Processing - NLP) နယ်ပယ်တွင် အလွန်အရေးပါသော တိုးတက်မှုတစ်ခုကို ဖြစ်ပေါ်စေခဲ့ပြီး၊ စကားဘာသာပြန်ဆိုခြင်း (Machine Translation) နှင့် အခြား AI ဆိုင်ရာ အသုံးချမှုများအတွက် Transformer ဟုခေါ်သော ဗိသုကာအသစ်တစ်ခုကို မိတ်ဆက်ပေးခဲ့သည်။ Transformer သည် အာရုံစူးစိုက်မှု ယန္တရား (Attention Mechanism) ကို ဗဟိုပြု၍ တည်ဆောက်ထားပြီး၊ ယခင်က အသုံးပြုခဲ့သည့် ထပ်တလဲလဲ အာရုံခံကွန်ယက်များ (Recurrent Neural Networks - RNNs) နှင့် အချိန်ဆက်စပ်အာရုံခံကွန်ယက်များ (Convolutional Neural Networks - CNNs) ကို အစားထိုးခဲ့သည်။[]

နောက်ခံသမိုင်းကြောင်း

[ပြင်ဆင်ရန်]

ယခင်ကာလများတွင် NLP လုပ်ငန်းများဖြစ်သည့် စကားဘာသာပြန်ဆိုခြင်း၊ စာသားခွဲခြမ်းစိတ်ဖြာခြင်းနှင့် အခြားသော ဘာသာစကားဆိုင်ရာ လုပ်ဆောင်ချက်များကို RNN နှင့် CNN ကဲ့သို့သော မော်ဒယ်များဖြင့် လုပ်ဆောင်ခဲ့သည်။ သို့သော် ဤမော်ဒယ်များတွင် အားနည်းချက်များစွာရှိခဲ့သည်။ ဥပမာအားဖြင့် RNN သည် အစဉ်လိုက် လုပ်ဆောင်ရသည့်သဘောကြောင့် လေ့ကျင့်ရာတွင် အချိန်ကြာမြင့်သည်။ ထို့အပြင်၊ ဝါကျရှည်များကို ကိုင်တွယ်ရာတွင် အစောပိုင်းအချက်အလက်များကို “မေ့လျော့သွားတတ်သည့်” ပြဿနာ (Vanishing Gradient Problem) ကြောင့် အကန့်အသတ်ရှိခဲ့သည်။ CNN များသည် ပိုမိုမြန်ဆန်သော်လည်း၊ ဝါကျအတွင်းရှိ စကားလုံးများအကြား ဝေးကွာသော ဆက်နွယ်မှုများကို ဖမ်းယူနိုင်ရန် ခက်ခဲခဲ့သည်။ Transformer သည် ဤပြဿနာများကို ကျော်လွှားရန် အာရုံစူးစိုက်မှုယန္တရားကို အသုံးပြု၍ ဒီဇိုင်းထုတ်ခဲ့သည်။

စကေးလုပ်ထားသော dot-product အာရုံစူးစိုက်မှု နှင့် ကိုယ်တိုင် အာရုံစူးစိုက်မှု

[ပြင်ဆင်ရန်]

(dot-product attention & self-attention)

စကေးလုပ်ထားသော အစက်ထုတ်ကုန် အာရုံစူးစိုက်မှု နှင့် ကိုယ်တိုင်အာရုံစူးစိုက်မှု ယန္တရားကို Recurrent Neural Network သို့မဟုတ် Long Short-Term Memory (ထပ်တလဲလဲမှုပေါ်တွင် မူတည်သည်) အစား အသုံးပြုခြင်းသည် နောက်တစ်ပိုဒ်တွင် ဖော်ပြထားသည့်အတိုင်း ပိုမိုကောင်းမွန်သော စွမ်းဆောင်ရည်ကို ရရှိစေသည်။ စာတမ်းတွင် စကေးလုပ်ထားသော အစက်ထုတ်ကုန်ကို အောက်ပါအတိုင်း ဖော်ပြထားသည်-

မော်ဒယ်သည် Query (Q), Key (K) နှင့် Value (V) မက်ထရစ်များပေါ်တွင် မူတည်ပြီး ၎င်းတို့သည် တူညီသော အရင်းအမြစ် (ဆိုလိုသည်မှာ ထည့်သွင်းမှု အစီအစဉ် / အကြောင်းအရာ ဝင်းဒိုး) မှ လာသောကြောင့်၊ ၎င်းသည် RNN များ၏ လိုအပ်ချက်ကို လုံးဝ ဖယ်ရှားပေးပြီး ဗိသုကာအတွက် အပြိုင်လုပ်ဆောင်နိုင်မှုကို သေချာစေသည်။ ၎င်းသည် ၂၀၁၄ ခုနှစ်တွင် မိတ်ဆက်ခဲ့သော မူလ Attention ယန္တရား၏ ပုံစံနှင့် ကွဲပြားသည်။ ထို့အပြင်၊ စာတမ်းတွင် အပိုဆောင်း စကေးလုပ်ထားသော အချက်တစ်ခု၏ အသုံးပြုမှုကိုလည်း ဆွေးနွေးထားပြီး၊ ၎င်းသည် အထက်တွင်ဖော်ပြထားသည့် ပုံစံအတိုင်း သော့ချက် ဗက်တာများ၏ အတိုင်းအတာ (စာတမ်းအတွင်း "dk" အဖြစ် ဖော်ပြထားပြီး ကနဦး ၆၄ အဖြစ် သတ်မှတ်ထားသည်) နှင့် ပတ်သက်၍ အထိရောက်ဆုံး ဖြစ်ကြောင်း တွေ့ရှိခဲ့သည်။

စာတမ်းတွင် အာရုံစိုက်ထားသည့် ဘာသာပြန်ခြင်း၏ သီးသန့် အကြောင်းအရာတွင်၊ Query နှင့် Key မက်ထရစ်များကို များသောအားဖြင့် အရင်းအမြစ် ဘာသာစကားနှင့် သက်ဆိုင်သော ထည့်သွင်းမှုများတွင် ဖော်ပြထားပြီး Value မက်ထရစ်သည် ပစ်မှတ် ဘာသာစကားနှင့် သက်ဆိုင်သည်။

Transformer ဗိသုကာ၏ အသေးစိတ်ဖွဲ့စည်းပုံ

[ပြင်ဆင်ရန်]

Transformer ဗိသုကာသည် အင်ကုဒ်ဒါ (Encoder) နှင့် ဒီကုဒ်ဒါ (Decoder) ဟူ၍ အဓိက အစိတ်အပိုင်းနှစ်ခုပါဝင်သည်။ အင်ကုဒ်ဒါသည် ထည့်သွင်းထားသော စာကြောင်းတစ်ခုလုံးကို တစ်ပြိုင်နက် ခွဲခြမ်းစိတ်ဖြာပြီး၊ ၎င်းကို စက်ဖြင့် နားလည်နိုင်သော ပုံစံအဖြစ် ပြောင်းလဲပေးသည်။ ဒီကုဒ်ဒါသည် အင်ကုဒ်ဒါမှ ရရှိသော အချက်အလက်များကို အသုံးပြု၍ ထွက်ရှိလာမည့် စာကြောင်းကို တစ်လုံးချင်း ထုတ်လုပ်ပေးသည်။

ဤဗိသုကာတွင် အဓိကအင်္ဂါရပ်မှာ “မိမိကိုယ်ကို အာရုံစူးစိုက်မှု” (Self-Attention) ဖြစ်သည်။ မိမိကိုယ်ကို အာရုံစူးစိုက်မှုသည် စာကြောင်းတစ်ခုအတွင်းရှိ စကားလုံးတစ်လုံးချင်းစီအား အခြားစကားလုံးများနှင့် မည်မျှဆက်စပ်မှုရှိသည်ကို တွက်ချက်ပေးသည်။ ဥပမာအားဖြင့် “ကျွန်တော် စာအုပ်ကို စားပွဲပေါ်တင်ခဲ့တယ်” ဆိုသော ဝါကျတွင် “စာအုပ်” သည် “စားပွဲ” နှင့် ဆက်နွယ်မှုရှိသည်ကို ဖော်ထုတ်ပေးနိုင်သည်။ ထို့အပြင်၊ “မျိုးဆက်ပေါင်းစုံ အာရုံစူးစိုက်မှု” (Multi-Head Attention) ကို ထည့်သွင်းထားပြီး၊ ၎င်းသည် စာကြောင်းတစ်ခု၏ မတူညီသော ဆက်နွယ်မှုပုံစံများကို တစ်ပြိုင်နက် ဖမ်းယူနိုင်စွမ်းရှိသည်။

အင်ကုဒ်ဒါနှင့် ဒီကုဒ်ဒါတစ်ခုစီတွင် အလွှာများစွာ (Layers) ပါဝင်သည်။ စာတမ်းတွင် အင်ကုဒ်ဒါအလွှာ ၆ ခုနှင့် ဒီကုဒ်ဒါအလွှာ ၆ ခုကို အသုံးပြုထားသည်ဟု ဖော်ပြထားသည်။ ထို့အပြင်၊ အနေအထားဆိုင်ရာ အင်ကုဒ်ဒင်း (Positional Encoding) ဟုခေါ်သော နည်းလမ်းကို အသုံးပြုထားပြီး၊ ၎င်းသည် စကားလုံးများ၏ အစဉ်အတန်းကို ထည့်သွင်းစဉ်းစားနိုင်ရန် ကူညီပေးသည်။

အကျိုးကျေးဇူးများနှင့် စွမ်းဆောင်ရည်

[ပြင်ဆင်ရန်]

Transformer သည် RNN များနှင့် နှိုင်းယှဉ်ပါက အချိန်ကုန်သက်သာစွာ လေ့ကျင့်နိုင်သည်။ အကြောင်းမှာ ၎င်းသည် စာကြောင်းတစ်ခုလုံးကို တစ်ပြိုင်နက် လုပ်ဆောင်နိုင်သည့် အပြိုင်လုပ်ဆောင်မှု (Parallelization) စွမ်းရည်ရှိသောကြောင့်ဖြစ်သည်။ ထို့အပြင်၊ ဝါကျရှည်များတွင် စကားလုံးများအကြား ဝေးကွာသော ဆက်နွယ်မှုများကို ပိုမိုကောင်းမွန်စွာ ဖမ်းယူနိုင်သည်။ စာတမ်းတွင် ဖော်ပြထားသည့် စမ်းသပ်မှုများအရ Transformer သည် WMT 2014 အင်္ဂလိပ်-ဂျာမန် ဘာသာပြန်ဆိုမှု စမ်းသပ်ချက်တွင် BLEU ရမှတ် ၂၈.၄ အထိ ရရှိခဲ့သည်။ ၎င်းသည် ထိုစဉ်က အကောင်းဆုံး ရလဒ်ဖြစ်ခဲ့သည်။

သက်ရောက်မှုနှင့် အသုံးချမှု

[ပြင်ဆင်ရန်]

“သင်လိုအပ်သမျှက အာရုံစူးစိုက်မှုပဲ။” စာတမ်းသည် NLP နယ်ပယ်တွင် တော်လှန်ပြောင်းလဲမှုတစ်ခုကို ဖြစ်ပေါ်စေခဲ့သည်။ Transformer ဗိသုကာသည် နောက်ပိုင်းတွင် BERT (Bidirectional Encoder Representations from Transformers)၊ GPT (Generative Pre-trained Transformer) နှင့် T5 ကဲ့သို့သော မော်ဒယ်များ၏ အခြေခံအုတ်မြစ်ဖြစ်လာခဲ့သည်။ ၎င်းတို့သည် စကားဘာသာပြန်ဆိုခြင်းအပြင်၊ စာသားထုတ်လုပ်ခြင်း၊ မေးခွန်းဖြေကြားခြင်း၊ စာသားအနှစ်ချုပ်ခြင်း စသည့် နယ်ပယ်များတွင် အသုံးချခံရသည်။

ထို့အပြင်၊ Transformer သည် NLP အပြင် အခြားနယ်ပယ်များသို့လည်း ချဲ့ထွင်ခံရသည်။ ဥပမာအားဖြင့်၊ ပုံရိပ်ခွဲခြမ်းစိတ်ဖြာခြင်း (Computer Vision) နယ်ပယ်တွင် Vision Transformer (ViT) ကဲ့သို့သော မော်ဒယ်များတွင် အသုံးပြုခံရသည်။ ဤသို့ဖြင့်၊ ဤစာတမ်းသည် ဉာဏ်ရည်တု (Artificial Intelligence) နယ်ပယ်တစ်ခုလုံးကို အပြောင်းအလဲဖြစ်စေခဲ့သည်။

နိဂုံး

[ပြင်ဆင်ရန်]

“သင်လိုအပ်သမျှက အာရုံစူးစိုက်မှုပဲ။” စာတမ်းသည် ခေတ်မီသော AI နည်းပညာများ၏ အဓိကအချက်တစ်ခုဖြစ်လာခဲ့သည်။ Transformer ဗိသုကာသည် ၎င်း၏ မြန်ဆန်မှု၊ ထိရောက်မှုနှင့် ဘက်စုံအသုံးပြုနိုင်မှုတို့ကြောင့် ယနေ့ခေတ် ဉာဏ်ရည်တုနည်းပညာများ၏ အရေးပါသော အစိတ်အပိုင်းတစ်ခုအဖြစ် ရပ်တည်နေသည်။ ၎င်းသည် အနာဂတ်တွင် ပိုမိုတိုးတက်သော AI မော်ဒယ်များအတွက် အခြေခံအုတ်မြစ်အဖြစ် ဆက်လက်အသုံးပြုခံရဦးမည်ဖြစ်သည်။

ကိုးကား

[ပြင်ဆင်ရန်]
  1. Paper entitled, "Attention is all you need.", written by 8 scientists at Google.

en:Attention Is All You Need