日本語文章の統計解析の題材として、データベース (version 2008.05.08)を公開します。
JUMAN によって形態素分割して, エクセル形式にしてあります。
原作から、 会話文「・・・」とそれを含む1文をまるごと削除したのち、 形態素解析ソフトJUMANによって、 テキストを単語に分割し、 手作業による校正を経ています(ものすごい手間がかかっています)。
原作から、 会話文「・・・」とそれを含む1文をまるごと削除したのち、 形態素解析ソフトJUMANによって、 テキストを単語に分割し、 手作業による校正を経ています。
サッカーコラムです。 原作を形態素解析ソフトJUMANによって、テキストを単語に分割したもの。
手作業による校正をしていないため、品詞分解の精度は劣ります。
著作 | 作品数 | 語数 | 句点(。)数 | 読点(、)数 |
---|---|---|---|---|
徳川家康1巻 | 23 | 58398 | 3708 | 3131 |
風の武士上巻 | 24 | 31240 | 2379 | 3282 |
風の武士下巻 | 24 | 27594 | 2117 | 2634 |
セルジオ越後 | 5 | 21457 | 1237 | 1334 |
金子達仁 | 6 | 26173 | 1208 | 1815 |
戸塚啓 | 7 | 28054 | 1576 | 1626 |