Original Audio and Translated Audio

Load and process audio file to standard sample rate using librosa

Translate audio to text using Whisper

Calculate WER based on transcribed texts using jiwer

Calculate PESQ based on librosa processed audio using pesq

Calculate MOS based on librosa processed audio using NISQA

EMBEDDED BASED PROCESSING

Compute Cosine Similarity
(Text Embedding)

Compute Cosine Similarity
(Audio Embedding)

ACCENT