Macho000

要約

BARTでのBERTとの違いは以下の3つの特徴

事前学習

  image.png

図のようにエンコーダーとデコーダーの両方を使って事前学習を行った。 事前学習の手法は以下の7つを行った

  1. 単語マスキング
  2. 単語削除
  3. 単語列のマスキング
  4. 単語の並び替え
  5. 文章回転

picture 2

図にあらあわすと上図の通り。

単語マスキングでは予測する単語に_というマスキングを施す 単語削除では任意の単語を削除して.で置き換える 単語列のマスキングでは複数単語(BC)に_というマスキングを施す 単語の並び替えでは単語の順番を入れ替える。 文章回転では、単語の並びを保持したまま最初の単語を入れ替える

#言語モデル