【投稿日】2019.02.15
日時: | 2019年2月12日㈫ 14:00–15:00 |
---|---|
場所: | 青葉山キャンパス 情報科学研究科棟 2階中講義室 |
備考: | 情報科学研究科研究科重点プロジェクト「数学と諸分野の協働推進による学際的・総合的な新領域研究の開拓」第26回講演会を兼ねています。 |
14:00–15:00
持橋 大地 氏 (統計数理研究所)
階層 Pitman-Yor 過程による半教師あり形態素解析
自然言語の単語の頻度分布は一般に巾乗則に従い, それは Pitman-Yor 過程 (Pitman and Yor 1997), あるいはそれを階層化した階層 Pitman-Yor 過程 (Teh 2006) とよばれる確率過程によってよく近似できることが知られている。このことを利用し, 文字と単語の Markov モデルにネストされた階層 Pitman-Yor 言語モデルを考えることで, たとえ未知の言語でも, 生の文字列だけから「単語」を完全に自動的に推定できる統計モデルを2009年に発表した (Mochihashi et al. 2009)。しかし, 実際の応用では人手で構築した単語分割の教師データや辞書が利用できることが多く, そうした教師データの情報も利用する半教師あり学習の必要性がもっとも高いと考えられる。そこで, 形態素解析の教師あり学習のための標準的なモデルであるCRF (条件付確率場) と上記の階層 Pitman-Yor 過程による言語モデルを接続し, 互いに補い合うことで, 教師データにない未知の言語表現からも適切に「単語」を認識することのできる半教師あり学習の枠組 (Fujii et al. 2016)について解説する。また, 近年のニューラル言語モデルの発展も踏まえ, 現代的な立場からこうした研究をどう発展させていくかについての議論も同時に行いたい。