音声分析(おんせいぶんせき、: speech analysis)は音声特徴量へ変換・表現することである[注 1]

概要

編集

STFT


音響特徴量

編集

: acoustic feature, speech representation

非周期性指標

編集

非周期性指標: aperiodicity)は音響信号の各周波数における非調波成分の割合である[2]。有声音であれば声のかすれ具合に相当する[3]

手法

編集

fo

DCTCELP


Acoustic Unit Discovery

編集

Acoustic Unit (AU) Acoustic Unit Discovery; AUD AUD= AUAU: AUunit-to-speech, speech resynthesis: GSLMAU


注釈

編集
  1. ^ "音声分析合成システムは、音声の特徴を活用し、音声をパラメータとして表現する分析法、 および パラメータから合成する方法をまとめた方式を指す。" [1]
  2. ^ "Studies on unsupervised speech representation learning can roughly be divided into reconstruction and self-supervised learning methods." [4]

出典

編集


(一)^ ︿201853ISBN 9784339011371ID:029070892 

(二)^ "aperiodicity is defined as the power ratio between the speech signal and the aperiodic component of the signal" Morise. (2016). D4C, a band-aperiodicity estimator for high-quality speech synthesis. Speech Communication, Volume 84, pp.57-65.

(三)^  : 7411201811608-612CRID 1390001288135088000doi:10.20697/jasj.74.11_608ISSN 03694232 

(四)^ Polyak, et al. (2021). Speech Resynthesis from Discrete Disentangled Self-Supervised Representations.

関連項目

編集