目的
入力データ(例えば、所定の単位(例えば変換先の単語等の区切り)に区切られていない映像(フレーム画像の系列))を入力し、その映像内の特定の部分領域を切出す処理を行うことなく、その入力データに対応する記号列(例えば、所定の言語表現における単語列)を出力することができるようにする変換装置、学習装置、およびプログラムを提供。
効果
入力画像系列から記号列への自動変換処理において、入力データの中の一部のみを切出すための計算量を削減することが可能となる。
技術概要
エンコーダー部は、入力される画像系列を基に状態データを生成する。デコーダー部は、状態データを基に記号列を生成する。第2エンコーダー部は、画像系列に含まれるそれぞれの画像から切出した所定の部分画像に少なくとも基づいて状態データを生成する。ロス算出部は、エンコーダー部または第2エンコーダー部が生成する状態データ、に基づいてデコーダー部が生成する記号列である学習用推定記号列と、正解記号列と、の差を表すロスを算出する。第2ロス算出部は、学習用画像系列に基づいてエンコーダー部が生成する状態データと第2エンコーダー部が生成する状態データとの差を表す第2ロスを算出する。エンコーダー部は、第2ロスに基づく学習を行う。