2012年2月2日大野誠寛 助教(社会システム情報学専攻)2011/11/1着任
2011年11月に着任しました。名古屋大学大学院情報科学研究科の博士課程前期課程・後期課程を修了し、その後、本学大学院国際開発研究科で働いておりました。この度、学生時代にお世話になった情報科学研究科で働ける機会をいただき、大変光栄に思っております。
私は、大量の言語情報を知識資源として有効に活用し、人間の知的活動を支援することを目指して、自然言語処理に関する研究を推進しています。これまでに、言語情報処理の基礎技術である構文解析技術、ならびに、字幕生成や音声対話などに関する応用技術を開発してきました。以下では、私の主な研究内容の一つである、字幕生成に関する研究について紹介します。
字幕生成とは、音声をテキストで提示するものであり、聴覚障害者や高齢者、外国人らによる音声理解を支援することを目的としています。現在、総務省の取り組みにより字幕付きのテレビ放送が普及しつつありますが、一般の講演の場で字幕生成が行われることはほとんどありません。専門家による講演や解説などから得られる貴重な情報を聴覚障害者や難聴者にも提供する手段として、リアルタイム字幕生成システムの開発が望まれています。これまでに、字幕の自動生成の実現を目指した研究は数多く行われており、字幕生成のための音声認識技術について検討が進んでいます。しかし近年では、字幕を単に提示することだけでなく、字幕の質、すなわち、字幕の読みやすさへの要求も高まっています。
読みやすい字幕を生成するためには、音声を精度よく文字化することだけでなく、文字化されたテキストをどのように提示するかということもまた重要となります。特に、講演では文が長くなる傾向にあり、一文が字幕スクリーン上で複数行にまたがって表示されることになるため、提示されたテキストが読みやすくなるように、適切な箇所に改行が挿入されていることが望まれます(下図)。
そこで、この研究では、読みやすい字幕を生成するための要素技術として、適切な位置への改行挿入手法を開発しました。適切な改行挿入位置とは、節境界や係り受け、ポーズなどの情報から決まる意味的な切れ目の強弱や、ディスプレイの幅との兼ね合いなど、いくつかの要因のバランスのもとに定まると考えられます。本手法では、1文中に挿入されうる改行位置の最適な組み合わせを確率モデルを用いて決定することにより、読みやすい位置への改行挿入を実現しました。この他、読みやすい字幕を生成するための技術として、話し言葉に対して適切な位置に読点を挿入する手法なども開発しています。
今後は、論文等の学術情報の生産を支援する技術の開発にも取り組んでいきたいと考えています。