Macho000

日本語固有表現抽出を以下にまとめる

BIDDING DATASET

入札に関するPDFと「調達年度、都道府県、入札件名、施設名、需要場所(住所)、調達開始日、調達終了日、公告日、仕様書交付期限、質問締切日時、資格申請締切日時、入札書締切日時、改札日時、質問箇所 所属/担当者、質問箇所 TEL/FAX、資格申請送付先、資格申請送付先 部署/担当者名、入札書送付先、入札書送付先 部署/担当者名、改札場所」の固有表現を抽出するデータセット

リンク

PDFは以下のようになっている

picture 1

picture 2

picture 3

picture 4

正解ラベルはExcel形式

picture 5

データスタッツ

picture 6

Wikipediaを用いた日本語の固有表現抽出データセット

Wikipediaのテキストに対して、タグ(タイプ)を「人名、法人名、政治的組織名、その他の組織名、地名、施設名、製品名、イベント名」を割り当てたデータセットリンク

固有表現をハイライトしたサンプルは以下の通りリンク picture 7

データ形式 データファイルはjson形式になっており、全体としてはデータサンプルのリストとして構成されている

picture 8

IREXコーパス

毎日新聞の94,95年の記事を対象にした固有表現抽出データセット

新聞記事データは含まれていない点に注意が必要

データセットのダウンロードはこちら

日本語HPはこちら

このHPに詳しく各フォルダの中身について解説がされている

京都大学ウェブ文書リードコーパス

さまざまな種類のテキストに対する固有表現抽出を行なったデータセット

具体的にはWebやニュース、百科事典、ブログ、広告といった幅広いジャンルのテキストから固有表現を抽出したデータセット

データの形式は以下の通り

picture 9

固有表現のアノテーションは $$ タグで与えられる。$$ タグは4つの属性を持つ。

BCCWJ NEコーパス

BCCWJのコアデータにIREXの定義に基づきタグ付けしたコーパス

リンク

picture 10

拡張固有表現タグ付きコーパス

現代日本語言葉均衡コーパス(BCCWJ)のコアデータおよび「CD-毎日新聞'95データ集」の新聞記事に対し関根の拡張固有表現階層-7.1.0-を人手付与したコーパス

リンク

データセットは有料で言語資源協会の方は年度中に1件目の場合に限り無料。二件目以上に当たる会員は5500円になる。非会員は33000円