🎵 Vocos Audio Reconstruction Studio

Upload an audio file to hear it reconstructed through the Vocos neural vocoder with advanced processing options.

Features:

🎯 High-quality neural audio reconstruction
🔇 Optional noise reduction
🔊 Volume boost control
✂️ Automatic silence trimming
📊 Detailed quality metrics
📈 Visual waveform & spectrogram analysis

📥 Input

Upload Audio File or Record

⚙️ Processing Options

Enable Noise Reduction

Apply spectral gating to reduce background noise

Volume Boost (dB)

Adjust output volume (-20 to +20 dB)

-20 20

Trim Silence

Remove leading and trailing silence

📤 Output

Reconstructed Audio

Process audio to see statistics

📈 Waveform Comparison

Waveform Analysis

🎼 Spectrogram Comparison

Spectrogram Analysis

ℹ️ Technical Information

Model Details:

Model: Vocos Mel-24kHz
Architecture: Neural vocoder with mel-spectrogram backbone
Target Sample Rate: 24 kHz

System Information:

Device: CPU
PyTorch: 2.9.0+cu128
Torchaudio: 2.9.0+cu128

Supported Formats:

Input: WAV, MP3, FLAC, OGG, M4A (any format supported by your browser)
Output: WAV at 24 kHz

📝 Quality Metrics Explained

SNR (Signal-to-Noise Ratio): Higher is better (>20 dB is good)
Correlation: Closer to 1.0 means higher similarity
Energy Ratio: Closer to 1.0 means similar loudness

💡 Tips

For best results, use clear audio recordings
Enable noise reduction for recordings with background noise
Use volume boost for quiet recordings
Check the visualizations to compare quality

🎯 Quick Start Examples

Try these settings: