dangtr0408
/

StyleTTS2-lite

Model card Files Files and versions

dangtr0408 commited on May 17

Commit

2914730

·

1 Parent(s): 0b61e28

Update config

Files changed (1) hide show

Models/config.yaml +14 -5

Models/config.yaml CHANGED Viewed

@@ -1,18 +1,26 @@
 log_dir: ./Models/Finetune
 save_freq: 1
-log_interval: 5
 device: cuda
 epochs: 50
 batch_size: 2
 max_len: 310 # maximum number of frames
 pretrained_model: ./Models/Finetune/base_model.pth
 load_only_params: false # set to true if do not want to load epoch numbers and optimizer parameters
 data_params:
   train_data: ../../Data_Speech/LibriTTS/train.txt
   val_data: ../../Data_Speech/LibriTTS/val.txt
   root_path: ../../Data_Speech/
 preprocess_params:
   sr: 24000
   spect_params:
@@ -20,23 +28,24 @@ preprocess_params:
     win_length: 1200
     hop_length: 300
 model_params:
   dim_in: 64
   hidden_dim: 512
   max_conv_dim: 512
   n_layer: 3
   n_mels: 80
-  n_token: 178 # number of phoneme tokens
   max_dur: 50 # maximum duration of a single phoneme
   style_dim: 128 # style vector size
   dropout: 0.2
   ASR_params:
     input_dim: 80
     hidden_dim: 256
-    n_token: 178 # number of phoneme tokens
     n_layers: 6
     token_embedding_dim: 512

 log_dir: ./Models/Finetune
 save_freq: 1
+log_interval: 10
 device: cuda
 epochs: 50
 batch_size: 2
 max_len: 310 # maximum number of frames
 pretrained_model: ./Models/Finetune/base_model.pth
 load_only_params: false # set to true if do not want to load epoch numbers and optimizer parameters
+debug: true
 data_params:
   train_data: ../../Data_Speech/LibriTTS/train.txt
   val_data: ../../Data_Speech/LibriTTS/val.txt
   root_path: ../../Data_Speech/
+symbol: #Total 178 symbols
+  pad: "$"
+  punctuation: ';:,.!?¡¿—…"«»“” '
+  letters: "ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz"
+  letters_ipa: "ɑɐɒæɓʙβɔɕçɗɖðʤəɘɚɛɜɝɞɟʄɡɠɢʛɦɧħɥʜɨɪʝɭɬɫɮʟɱɯɰŋɳɲɴøɵɸθœɶʘɹɺɾɻʀʁɽʂʃʈʧʉʊʋⱱʌɣɤʍχʎʏʑʐʒʔʡʕʢǀǁǂǃˈˌːˑʼʴʰʱʲʷˠˤ˞↓↑→↗↘'̩'ᵻ"
+  extend: "" #ADD MORE SYMBOLS HERE
 preprocess_params:
   sr: 24000
   spect_params:
     win_length: 1200
     hop_length: 300
+training_strats:
+  #All modules: 'decoder', 'predictor', 'text_encoder', 'style_encoder', 'text_aligner', 'pitch_extractor', 'mpd', 'msd'
+  freeze_modules: [''] # Not updated when training.
+  ignore_modules: [''] # Not loading => fresh start. IMPORTANT: 'text_aligner' and 'pitch_extractor' are util pretraineds DO NOT ignore them.
 model_params:
   dim_in: 64
   hidden_dim: 512
   max_conv_dim: 512
   n_layer: 3
   n_mels: 80
   max_dur: 50 # maximum duration of a single phoneme
   style_dim: 128 # style vector size
   dropout: 0.2
   ASR_params:
     input_dim: 80
     hidden_dim: 256
     n_layers: 6
     token_embedding_dim: 512