日本語文章解析のための汎用データベース

日本語文章の統計解析の題材として、データベース (version 2008.05.08)を公開します。
JUMAN によって形態素分割して, エクセル形式にしてあります。

山岡荘八(1907--1978)

「徳川家康」講談社文庫全26巻 (初出は1950年3月--1967年4月まで北海道新聞・中日新聞などに連載) のうち1巻全23章

原作から、 会話文「・・・」とそれを含む1文をまるごと削除したのち、 形態素解析ソフトJUMANによって、 テキストを単語に分割し、 手作業による校正を経ています(ものすごい手間がかかっています)。

司馬遼太郎(1923--1996)

「風の武士」 講談社文庫上下2巻(各巻24章) (初出は1960年3月--1961年2月まで週刊サンケイに連載)

原作から、 会話文「・・・」とそれを含む1文をまるごと削除したのち、 形態素解析ソフトJUMANによって、 テキストを単語に分割し、 手作業による校正を経ています。

セルジオ越後:日刊スポーツのブログ (2005年3月--2007年8月)
金子達仁:スポニチのサッカーコラムサイトより (2006年8月--2007年8月)
戸塚啓:スポニチのサッカーコラムサイトより (2005年12月--2007年8月)

サッカーコラムです。 原作を形態素解析ソフトJUMANによって、テキストを単語に分割したもの。
手作業による校正をしていないため、品詞分解の精度は劣ります。

↑ページの先頭へ戻る

データの総量のめやす(作品数とは、各著作を分割してできたファイルの総数)

著作 作品数 語数 句点(。)数 読点(、)数
徳川家康1巻 23 58398 3708 3131
風の武士上巻 24 31240 2379 3282
風の武士下巻 24 27594 2117 2634
セルジオ越後 5 21457 1237 1334
金子達仁 6 26173 1208 1815
戸塚啓 7 28054 1576 1626

ページの先頭へ戻る