音声分析
概要
編集音響特徴量
編集
音声分析で得られる特徴量は音響特徴量︵英: acoustic feature, speech representation︶と呼ばれる。音響特徴量は専門家の手による特徴量エンジニアリングで考案されたり、機械学習を利用した表現学習によって得られる。特徴量の良さはその用途により異なる。以下は音響特徴量の例である。
非周期性指標
編集非周期性指標(英: aperiodicity)は音響信号の各周波数における非調波成分の割合である[2]。有声音であれば声のかすれ具合に相当する[3]。
手法
編集
フーリエ変換に基づく周波数解析がしばしば利用される。これによりスペクトルやスペクトログラムが得られ、また更なる分析によってfoやフォルマントの経時変化が得られる。
また、音声波形について、DCT変換を用いて直接数値化する事も行われている。これを更にパターンに当てはめる事で伝送用に特化させたものが音声圧縮アルゴリズムのCELPであり、この数値の相関性を基にして、特定の人物の音声を合成することも可能である。
以下は特定の特徴量を得るために用いられる分析手法の一例である‥
Acoustic Unit Discovery
編集注釈
編集出典
編集
(一)^ 森勢将雅﹃音声分析合成﹄コロナ社︿音響テクノロジーシリーズ﹀、2018年、53頁。ISBN 9784339011371。国立国会図書館書誌ID:029070892。
(二)^ "aperiodicity is defined as the power ratio between the speech signal and the aperiodic component of the signal" Morise. (2016). D4C, a band-aperiodicity estimator for high-quality speech synthesis. Speech Communication, Volume 84, pp.57-65.
(三)^ 森勢将雅﹁音声パラメータのデザイン : 知覚情報を操作可能な音声合成に向けて﹂﹃日本音響学会誌﹄第74巻第11号、日本音響学会、2018年11月、608-612頁、CRID 1390001288135088000、doi:10.20697/jasj.74.11_608、ISSN 03694232。
(四)^ Polyak, et al. (2021). Speech Resynthesis from Discrete Disentangled Self-Supervised Representations.