音声分析合成
From Wikipedia, the free encyclopedia
音声分析合成は「音声→音響特徴量→音声」という一連の信号処理を指す。すなわち、音声信号を特徴量へ変換する音声分析と特徴量ベースの音声合成を一体として理解した音声処理である。
音声符号化は圧縮・暗号化目的の音声分析合成と見做すことができ、分析はエンコード、特徴量は符号、合成はデコードと対応する。また音声加工では信号の直接加工ではなく音響特徴量の加工がしばしばおこなわれる。加工の影響(例: 歪み、ノイズ)は音響特徴量の特性と合成部の仕様に深く関連しているため、分析-合成を一体のシステムとして理解することに大きなメリットがある。このように音声分析合成は音響信号処理全般の基礎技術として重要である[4]。
ボコーダー
音声分析合成システムは総称としてボコーダー(英: vocoder)と呼ばれる。
ボコーダー(vocoder)という語は音声符号化に関する (Dudley 1939) の論文で「音声 (voice) を符号化しその符号 (code) から音声を再合成するシステム」という意味で作られた[5]。「分析による特徴抽出とそれに基づく再合成」という意味でこれは音声分析合成システムであり、現在では音声分析合成システムの総称としてボコーダーという語が広く用いられる[6]。
例
様々な音声分析合成システム(ボコーダー)が提唱されている[7]。以下はその一例である。
| 名称 | 音響特徴量 | 合成器 | 原著 |
|---|---|---|---|
| チャネルボコーダ | fo・音量・サブバンド強度包絡[8] | 減算合成 | Dudley (1939) |
| フェーズボコーダ | 複素振幅(STFT) | iSTFT | |
| LPCボコーダ | 励起信号・LP係数 | 線形予測(減算合成) | |
| Spectral modeling synthesis[9] (音響分析合成) | fo・振幅 / スペクトル | 調波加算合成 / 雑音減算合成 | Serra, Smith (1990) |
| TANDEM-STRAIGHT[10] | |||
| WORLD[11] | fo・スペクトル包絡・非周期性指標 |
チャネルボコーダ
チャネルボコーダ(英: channel vocoder)は音声を基本周波数とサブバンド強度包絡へ符号化し減算合成で再合成するボコーダである。
分析はピッチとスペクトルのブランチからなる。
スペクトルでは「帯域分割→半波整流→低域通過[12]」によりスペクトルの符号を得る。この符号は合成において各周波数帯のパワーを制御する[13]。帯域分割をしているため各符号はサブバンドの信号であり、半波整流+低域通過は信号処理における一般的な包絡抽出法である。ゆえにこの符号はサブバンドの強度包絡(ゆっくりとした振幅変動[14])として解釈できる。ソース・フィルタモデルの観点からは構音を反映していると解釈できる[15]。伝送工学の用語を用いれば振幅変調の信号成分とも解釈できる[16]。
手法
音声分析合成では音声分析・音声合成の様々な手法が採用される。さらに、分析と合成を一体で捉える利点を生かした、音声分析合成特有の様々な技法・枠組みが開発されてきた。以下はその一例である。
合成による分析
合成による分析(英: Analysis by Synthesis、AbS)は「合成音の評価に基づく特徴量の抽出(=分析)」という音声分析合成の枠組みである。
シンプルな音声分析合成では分析と合成を独立しておこなう。よってある入力に対してどのような特徴量が得られるかは分析器によって一意に定まる。一方 AbS ではまず暫定的な分析をおこない、得られた特徴量に基づいて再合成をおこなう。次にこの合成音の評価をおこない、これに基づいて「特徴量は音声を良く表現しているか」を判定する。もし不十分であれば暫定特徴量を更新(再分析)し、同様の合成-評価をおこなうことで分析がより良くなる。この「分析-合成-評価のループによる分析」という枠組みが AbS である。
AbSは合成器の存在が前提となっており、分析と合成を一体で捉える音声分析合成の特徴を生かした枠組みとなっている。
AbS では1つの特徴量を得るために多数のループを回す必要があるため、分析コストが大きくなるデメリットがある。最も原始的なAbSでは全特徴量候補から総当たりで合成をおこなって最良特徴量が得られるが、これは明らかにコストが大きい。実用されるAbSでは階層的な絞り込みや勾配法など、計算量を抑える様々な工夫がなされている。