日本語固有表現抽出を以下にまとめる

BIDDING DATASET

入札に関するPDFと「調達年度、都道府県、入札件名、施設名、需要場所（住所）、調達開始日、調達終了日、公告日、仕様書交付期限、質問締切日時、資格申請締切日時、入札書締切日時、改札日時、質問箇所所属/担当者、質問箇所 TEL/FAX、資格申請送付先、資格申請送付先部署/担当者名、入札書送付先、入札書送付先部署/担当者名、改札場所」の固有表現を抽出するデータセット

リンク

PDFは以下のようになっている

正解ラベルはExcel形式

データスタッツ

Wikipediaを用いた日本語の固有表現抽出データセット

Wikipediaのテキストに対して、タグ（タイプ）を「人名、法人名、政治的組織名、その他の組織名、地名、施設名、製品名、イベント名」を割り当てたデータセットリンク

固有表現をハイライトしたサンプルは以下の通りリンク

データ形式データファイルはjson形式になっており、全体としてはデータサンプルのリストとして構成されている

curidは、データ元のWikipediaのページID
textはタグ付けを行う対象のテキスト
entitiesは固有表現のリスト
- nameは固有表現名
- spanはtextでの位置
- typeは固有表現のタイプ

IREXコーパス

毎日新聞の94,95年の記事を対象にした固有表現抽出データセット

新聞記事データは含まれていない点に注意が必要

データセットのダウンロードはこちら

日本語HPはこちら

このHPに詳しく各フォルダの中身について解説がされている

京都大学ウェブ文書リードコーパス

さまざまな種類のテキストに対する固有表現抽出を行なったデータセット

具体的にはWebやニュース、百科事典、ブログ、広告といった幅広いジャンルのテキストから固有表現を抽出したデータセット

データの形式は以下の通り

最初の行は文章のIDを表す
*は文節を表す
- 文節は１つもしくは複数の単語で構成されている
- はじめの数字は先頭のIDをあらわし、アルファベットは依存関係の種類を表す
- D 普通の依存関係
- P 調整依存
- I　不完全調整依存関係
- A 同格依存関係
+はフレーズを表す
- 基本的なフレーズを表す
- 文節と一致するかあるいは文節の一部になる
- はじめの数字は先頭のIDを表し、アルファベットは文節と同様に定義される
その他の行は形態素を表す
- 形態素の行は、JUMANで形態素解析を行った結果と一致する

固有表現のアノテーションは $$ タグで与えられる。$$ タグは４つの属性を持つ。

type
- リレーションの名前
- the name of a relation
target
- 対象となるテキスト
- the string of the counterpart
sid
- 文のID
- the sentence ID
id
- フレーズのID
- basic phrase ID

BCCWJ NEコーパス

BCCWJのコアデータにIREXの定義に基づきタグ付けしたコーパス

リンク

例

拡張固有表現タグ付きコーパス

現代日本語言葉均衡コーパス(BCCWJ)のコアデータおよび「CD-毎日新聞'95データ集」の新聞記事に対し関根の拡張固有表現階層-7.1.0-を人手付与したコーパス

リンク

データセットは有料で言語資源協会の方は年度中に１件目の場合に限り無料。二件目以上に当たる会員は５５００円になる。非会員は３３０００円