TOP > 研究活動 > 研究者総覧「情報知」 > メディア科学専攻 > 情報メディア空間構成論 > 戸田 智基

研究者総覧「情報知」

メディア科学専攻

氏 名
戸田 智基(とだ ともき)
講座等
情報メディア空間構成論
職 名
教授
学 位
博士(工学)
研究分野
音声情報処理 / 音メディア信号処理 / コミュニケーション支援・拡張
戸田 智基

研究内容

不可能を可能とする音情報処理
 

音信号は、物理的には空気などの媒体を伝搬する振動であり、一次元の時系列信号として表現されるが、そこには膨大な情報が埋め込まれている。例えば、人が発する音声に着目すると、言語情報(何を話しているか)、表情付けに関する情報(どのように話しているか)、個人性情報(誰が話しているか)などが含まれており、さらに伝搬の過程で、空間情報(どこから話しているか)や環境情報(どのような状況で話しているか)なども付与される。音声は、このような膨大な情報を同時に伝達可能なコミュニケーション媒体であり、その利便性は極めて高く,我々の生活において当たり前のように利用されている。また、音楽も、人が意図的に生成する音の一つであり、生活を豊かにする上で重要な役割を果たしている。


我々の生活と直結しているこれらの音信号に対して、自由自在に処理できる情報技術の構築を目指し、大きく分けて以下の2つの研究を進めている。

  • 1) 音声・言語情報処理

    信号処理、機械学習、強化学習などの技術を駆使して、音声を分析して所望の情報を取り出す音声分析、所望の情報を自在に加工する音声変換、所望の情報を持つ音声を生成する音声合成、音声から話者を識別する話者識別、音声をテキストへと変換する音声認識、発話内容を理解して適切な応答を返す音声対話などの研究に取り組んでいる。音声コミュニケーションの数理的モデル化を目指し、個々の処理における基盤技術の研究を進めつつ、各種応用技術の研究にも取り組んでいる。

  • 2) 音楽・音響情報処理

    歌声の特徴を定量化する歌声分析、所望の歌手の声による歌唱を可能とする歌声変換、身体的制約を超えた歌唱表現生成、イメージを具現化する創作活動支援、音楽信号を個々の楽器音へと分離する音源分離などの研究に取り組んでいる。また、音信号に埋め込まれる空間情報や環境情報を処理するための多チャンネル信号処理に関する研究にも取り組んでいる。


これらの音情報処理技術は、物理的に不可能なことを可能とし、我々の生活をさらに豊かにする可能性を大いに秘めている。以下では、一例として、音声コミュニケーション支援・拡張に向けた音声生成機能拡張に関する研究事例を紹介する(下図参照)。これらは、統計的手法に基づく音声変換の応用技術であり、事前知識や物理的制約を考慮して個々の問題を数理的に定式化し、実データを用いてシステムを構築するという枠組みに基づいている。

  • 1) 発声障碍者補助

    喉頭癌などの病気を患い、喉頭を摘出すると、音声生成器官の一つである声帯も同時に取り除かれるため、通常の音声生成機能を失う。食道発声や電気式人工喉頭を用いた発声などにより、再び音声を発声することは可能となるが、健常者の音声と比べると自然性や明瞭性が劣化したものとなり、また、音声の表情付けや個人性も損なわれる。音声生成は意図伝達において極めて重要な役割を果たすため、この機能に支障をきたすと、生活の質は著しく低下する。この問題に対し、喉頭摘出者が発声した音声をより自然な音声へと変換する技術の研究を進めている。また、より自然な抑揚を生成できる電気式人工喉頭の研究開発にも取り組んでいる。さらに、ボイスバンクプロジェクトの一環として、失われた自身の声を取り戻すために、変換音声の声質を自在に制御する技術の構築にも取り組んでいる。

  • 2) サイレント音声通話

    聴診器のような特殊な体表密着型マイクロフォンを用いることで、周囲の人に聞かれないほど微かな声を、体内を通して体表から集音することができる。一方で、その音質は体内伝導収録により大きく劣化し、自然性および明瞭性に乏しいものとなる。そこで、体内伝導音声を空気伝導音声へと変換する技術の研究を進めている。また、周囲の音環境や発話者の動作が体内伝導収録に与える影響を低減するために、多チャンネル信号処理による雑音抑圧技術の研究に取り組んでいる。本技術により、発話者は、いつでもどこでも静かに音声を発声することが可能となるため、あたかもテレパシーのような音声コミュニケーションを実現できる可能性を秘めている。

  • 3) ボイスチェンジャ/ボーカルエフェクタによる創作活動支援

    所望のキャラクタによる発声を可能とするボイスチェンジャや、所望の歌手の声による歌唱を可能とするボーカルエフェクタを実現するための研究を進めている。さらに、声質を定量化し、そのパラメータを手動設定することで、声質を自在に制御する技術の研究にも取り組んでいる。これにより、例えば、歌声を聞いた時に知覚される年齢を自由に制御することも可能となる。頭に思い描くイメージを具現化し、所望の声質による発声および歌唱を実現することで、音声創作や歌声創作を支援し、さらには、新たな発話表現や歌唱表現をもたらすことで、創作活動を活性化させることを目指している。

これらの音声生成機能拡張技術は、新たな音声コミュニケーション形態を我々人類にもたらす可能性を秘めており、現存する様々な障壁が取り除かれ、より豊かな音声コミュニケーションが実現されると期待される。一方で、これらの技術の悪用面についても目を向ける必要があり、現状の技術レベルや正しい技術の使い方を社会的に周知していくことが重要である

 

音声生成機能拡張技術
音声生成機能拡張技術

経歴

  • 1999年 名古屋大学工学部電気電子・情報工学科(電気電子コース)卒業。
  • 2003年 奈良先端科学技術大学院大学博士後期課程修了。博士(工学)。同年、日本学術振興会特別研究員-PD。
  • 2005年 奈良先端科学技術大学院大学情報科学研究科 助手、2007年 助教、2011年 准教授。
  • 2003年から1年間、米国カーネギーメロン大学言語技術研究所客員研究員、および、2008年から半年間、英国ケンブリッジ大学工学部客員研究員。
  • 2015年 名古屋大学情報基盤センター 教授。

所属学会

  • 電子情報通信学会
  • 情報処理学会
  • 日本音響学会
  • IEEE
  • ISCA

主要論文・著書

  1. Voice conversion based on maximum likelihood estimation of spectral parameter trajectory, IEEE Transactions on Audio, Speech and Language Processing, Vol. 15, No. 8, pp. 2222-2235 (2007).
  2. Statistical mapping between articulatory movements and acoustic spectrum using a Gaussian mixture model, Speech Communication, Vol. 50, No. 3, pp. 215-227 (2008).
  3. Speech synthesis based on hidden Markov models, Proceedings of the IEEE, Vol. 101, No. 5, pp. 1234-1252 (2013).