隠れマルコフモデルを用いた手書き文字認識

私の研究では,聴覚障害者が行う手話動作をコンピュータによって認識し,その動作
どのような単語であるかを推定します.

具体的には,パソコンに取り付けたカメラによって話者を撮影し, 得られた動画像を処理することによって手話動画の特徴量を取得し,その特徴量を用いて隠れマルコフモデルという手法を使った認識を行います.

隠れマルコフモデルで認識を行うためには,学習用のサンプルデータを多数用意しなければなりません.しかし,手話を話すことのできる人は少なく,サンプルデータを十分に集めることが困難なため,簡単にサンプルを取得できる手法で隠れマルコフモデルが動作認識に有効かどうかの確認を行います.

ここで,手話における手の動きというのは文字を書く時のストロークとしてみなすことができるのではないかと考えました.例えば,右手で「あ」という文字を書く動作をカメラで追跡することと,レーザーポインタで机に「あ」という文字を書いた時のレーザーポインタの軌跡を追跡することは同等だと考えます.

実験装置は以下の通りです.

机をカメラで撮影し,カメラの撮影できる範囲にレーザーポインタを使って文字を書きます.
カメラからそのレーザーポインタの動きを追跡し,特徴量を取得します.

特徴量はカメラ座標におけるレーザーポインタの位置情報を用いています.

認識手順としては以下の通りとなります.

1.レーザーポインタで机の上に文字を書きます.

2.そのレーザーポインタの動きをカメラで撮影し,その動画像から特徴量を取得します.

3.得られた特徴量を用いて隠れマルコフモデルよって各モデルについて尤度の計算を行います.

4.モデルの尤度を比較し,最も高い尤度を出力したモデルを認識結果とします.

 

現在のところ,50音の「あ」行「こ」行の10文字についてモデルを作成し,認識を行いました.

結果としては概ね90%以上の認識率を得ることができました.
これらから,隠れマルコフモデルは動作認識について有効であると考えます.