目的
字幕と発話内容の一致率が低いオフライン字幕を利用した場合にも、高い認識率によって音響モデルの学習データを自動生成し、多様な発話スタイルに対応できる音響モデルを作成する。
字幕と発話内容の一致率が低いオフライン字幕を利用した場合にも、より多くの量の音響モデルの学習データを生成することのできる音響処理装置およびプログラムを提供する。
効果
字幕が付与されている様々な番組音声から、大量の音響モデルの学習データを効率的に得ることができる。また、字幕と実際の音声との一致率が低い番組音声からも、より効率的に、音響モデルの学習データを得ることが可能となる。特に、字幕と音声の一致しない区間の一部からも学習データを得ることができる。また、これまで認識できなかった番組や話者の認識が可能になったり、音声認識の認識精度の向上が可能になったりする。
技術概要
音素と該音素に対応する音響特徴量とを関連付けた音響モデルを記憶する音響モデル記憶部と、
前記音響モデル記憶部から読み出した音響モデルを用いて音声の認識処理を行い、認識仮説を含んだ認識結果データを出力する認識処理部と、
前記認識処理部が出力した認識結果データに基づき、教師系列データを取得し、前記教師系列データに含まれる各々の音素に信頼度データを付加し、前記信頼度データが付加された前記教師系列データと該教師系列データに対応する音響特徴量データとを、学習データとして出力する選択処理部と、前記選択処理部が出力した学習データを読み込み、前記学習データに含まれる各々の前記音素の観測確率データを算出し、前記音素ごとに、前記学習データに含まれる前記音響特徴量データと算出された前記観測確率データとに基づき、且つ、前記信頼度データを重みとして乗じて得られる音響モデルを用いて、前記音響モデル記憶部を更新する音響モデル適応化部と、を具備する音響処理装置。