Piper Plus つくよみちゃん (Multilingual 6-Language + Prosody)
つくよみちゃんコーパスを使用して6言語マルチリンガルベースモデルからファインチューニングした多言語TTSモデルです。
prosody features (A1/A2/A3) に対応し、日本語・英語・中国語・スペイン語・フランス語・ポルトガル語の6言語でつくよみちゃんの声質で音声合成が可能です。
Sample Audio
| テキスト | 言語 | 音声 |
|---|---|---|
| こんにちは、つくよみちゃんです。 | JA | sample_ja |
| Hello, how are you today? | EN | sample_en |
| 你好,今天天气很好。 | ZH | sample_zh |
| Hola, como estas hoy? | ES | sample_es |
| Bonjour, comment allez-vous? | FR | sample_fr |
| Ola, como voce esta hoje? | PT | sample_pt |
Model Details
| 項目 | 値 |
|---|---|
| アーキテクチャ | VITS |
| 言語 | 日本語 (ja), 英語 (en), 中国語 (zh), スペイン語 (es), フランス語 (fr), ポルトガル語 (pt) |
| サンプルレート | 22050 Hz |
| 品質 | medium |
| 音素タイプ | multilingual |
| 音素数 | 173 |
| prosody_dim | 16 |
| 話者数 | 1 (つくよみちゃん) |
| 言語数 | 6 |
| ベースモデル | ayousanz/piper-plus-base (6言語マルチリンガル版、571話者) |
| ファインチューニング | 500 epochs, lr=2e-5, freeze-dp |
| 学習データ | つくよみちゃんコーパス (100発話, ~11分) |
| ONNXエクスポート | stochastic + EMA + emb_lang後処理 + FP16 (38MB) |
Inference Results
| テキスト | 言語 | 音声長 |
|---|---|---|
| こんにちは、つくよみちゃんです。 | JA | 3.05s |
| Hello, how are you today? | EN | 2.54s |
| 你好,今天天气很好。 | ZH | 1.21s |
| Hola, como estas hoy? | ES | 2.86s |
| Bonjour, comment allez-vous? | FR | 2.11s |
| Ola, como voce esta hoje? | PT | 2.24s |
Usage
推論(テキスト直接入力)
# 日本語
CUDA_VISIBLE_DEVICES="" uv run python -m piper_train.infer_onnx \
--model tsukuyomi-chan-6lang-fp16.onnx \
--config config.json \
--output-dir ./output \
--text "こんにちは、今日は良い天気ですね。" \
--language ja-en-zh-es-fr-pt \
--speaker-id 0 \
--noise-scale 0.667
# 英語
CUDA_VISIBLE_DEVICES="" uv run python -m piper_train.infer_onnx \
--model tsukuyomi-chan-6lang-fp16.onnx \
--config config.json \
--output-dir ./output \
--text "Hello, how are you today?" \
--language ja-en-zh-es-fr-pt \
--speaker-id 0 \
--noise-scale 0.667
# 混合テキスト(コードスイッチング)
CUDA_VISIBLE_DEVICES="" uv run python -m piper_train.infer_onnx \
--model tsukuyomi-chan-6lang-fp16.onnx \
--config config.json \
--output-dir ./output \
--text "今日はgood morningですね" \
--language ja-en-zh-es-fr-pt \
--speaker-id 0 \
--noise-scale 0.667
推奨推論パラメータ
| パラメータ | 値 | 説明 |
|---|---|---|
--noise-scale |
0.667 | デフォルト推奨値 |
--speaker-id |
0 | 単一話者 |
--language |
ja-en-zh-es-fr-pt | 6言語自動検出 |
Training
ベースモデル
ayousanz/piper-plus-base の6言語マルチリンガルベースモデル(571話者、508,187発話、75 epoch)からファインチューニング。
転移学習方式
--resume-from-multispeaker-checkpointでベースモデルからロードemb_g(571話者分の話者埋め込み) を自動除去emb_langに conditioning 分布補正を適用--freeze-dpを自動有効化(Duration Predictor の catastrophic forgetting 防止)
- 500 epoch ファインチューニング (100発話、lr=2e-5)
- ONNX エクスポート前に
emb_lang[0](JA) →emb_lang[1:5](EN/ZH/ES/FR/PT) にコピーして声質統一
学習コマンド
uv run python -m piper_train \
--dataset-dir /path/to/tsukuyomi-dataset \
--prosody-dim 16 \
--accelerator gpu --devices 1 --precision 32-true \
--max_epochs 500 --batch-size 4 --samples-per-speaker 4 \
--checkpoint-epochs 50 --quality medium \
--base_lr 2e-5 --disable_auto_lr_scaling \
--ema-decay 0.9995 \
--max-phoneme-ids 400 \
--no-wavlm \
--resume-from-multispeaker-checkpoint /path/to/base_model.ckpt \
--default_root_dir /path/to/output
Files
tsukuyomi-chan-6lang-fp16.onnx- ONNXモデル (38MB, FP16, emb_lang後処理済み)config.json- モデル設定 (173音素マップ、6言語)samples/- サンプル音声
Credits
- つくよみちゃんコーパス: 夢前黎
- Piper TTS: rhasspy/piper
License
ライセンスは、つくよみちゃんコーパス│声優統計コーパス(JVSコーパス準拠)に準じます
- Downloads last month
- 623