2014年2月10日加藤芳秀 准教授(社会システム情報学専攻 協力教員)2012/8/1着任
加藤芳秀と申します。言語を用いた人間とコンピュータのコミュニケーション、デジタル文書からの情報抽出など、高度な知識処理システムの実現を目指し、自然言語処理に関する研究に取り組んでいます。コンピュータによる自然言語文の同時的な理解を実現するための解析システムに関する研究を推進しています。また、自然言語処理技術を応用したアプリケーションとして、英文用例検索システムや文要約システムの開発に取り組んでいます。以下では、現在取り組んでいる研究課題の一つである、「英語論文からの英語表現集の自動構築」について紹介します。
【英語論文からの英語表現集の自動構築】
英語を母語としない学生や研究者にとって、英語論文執筆にはある種の困難さを伴いますが、その困難さを軽減する一つの方法として、英語表現集などを活用し、書きたい内容に近い英語表現を参照することが考えられます。英語表現集は既にいくつか出版されていますが、それらの英語表現集は人手で作成されており、記載されている表現や用例の数は十分に多いとは言えないのが現状です。
このような問題を解決するために、本研究では、論文執筆に役立つ英語表現を英語論文から自動的に獲得する手法を開発しています。電子化された論文は大量に存在するため、そこから大量の英語表現が抽出できると期待できます。しかし、単純に論文から単語列を取り出すだけでは、その中に論文執筆に役立たないものも大量に含まれてしまいます。本研究では、論文に含まれる英文を解析し、単語間の依存関係(修飾・被修飾の関係)を同定します。一般に、単語間の依存関係は木構造を構成しますが、半構造データマイニングの手法により、木構造から依存関係で結ばれた単語列を抽出します。さらに、抽出された単語列について、単語列の出現頻度や単語間の結びつきの強さなどを統計的に評価し、論文執筆に有用な表現を選別します。単語間の構文的関係を考慮し、統計的に単語列を評価することにより、英語表現の高精度な抽出を目指しています。