End-to-end workflow of the proposed SentMixNet framework for Bangla short video sentiment analysis

Data SourcesYouTube Shorts / TikTok / Facebook Reels

DATA CURATION PIPELINE

Manual Annotation(7-class Taxonomy)

Train/Val/Test Split(70/15/15)

VIDEO PROCESSING PIPELINE1. Frame Sampling (F=16)2. Face Detection &amp; Alignment

AUDIO PROCESSING PIPELINE1. Noise Suppression (RNNoise)2. Loudness Normalization3. Hybrid Feature Extraction(Wav2Vec2.0 / OpenSMILE LLDs)

TEXT PROCESSING PIPELINE1. ASR (Whisper + Wav2Vec2-BN)2. Text Normalization3. Hybrid Text Encoder(BanglaBERT / BiLSTM)

Visual Feature VV ∈ ℝ⁷⁶⁸

Audio Feature AA ∈ ℝ⁷⁶⁸

Textual Feature TT ∈ ℝ⁷⁶⁸

HCF MODULE(Hierarchical Cross-Modal Fusion)● ↔ ● ↔ ●Fused Representation FF ∈ ℝ⁴⁶⁰⁸

CLASSIFICATION HEAD1. LN + GELU (4608→1024)2. Dropout (0.3)3. LN + GELU (1024→512)4. FC (512→7)

Dynamic Focal Loss (DFL)+ Cross-Modal Regularization

Raw Video

Raw Audio

Raw Text (ASR Transcript)

Extractor Components

ViT

AU Detection

Optical Flow

fig1