DATA PREPARATION• Dataset Loading• Text Cleaning• Audio Processing

FEATURE EXTRACTION• Text Tokenization• Mel Spectrogram Extraction• Speaker Embedding Extraction

MODEL ARCHITECTURE• Text Encoder• Speaker Conditioning• Speech Decoder• Postnet

TRAINING PROCESS• Loss Calculation• Optimization• Checkpointing

INFERENCE PIPELINE• Input Text• Tokenization• Model Generation• Vocoder (HiFiGAN)• Audio Output