Merge branch 'main' of https://github.com/8b-is/IndexTTS-Rust

Browse files

Files changed (15) hide show

README.md +1 -1
benches/mel_spectrogram.rs +2 -6
src/audio/dsp.rs +0 -1
src/audio/mod.rs +6 -6
src/config/mod.rs +1 -1
src/model/embedding.rs +2 -2
src/model/gpt.rs +1 -1
src/model/mod.rs +0 -2
src/pipeline/synthesis.rs +2 -3
src/text/mod.rs +1 -1
src/text/normalizer.rs +1 -1
src/text/phoneme.rs +0 -1
src/vocoder/activations.rs +1 -1
src/vocoder/bigvgan.rs +1 -1
src/vocoder/mod.rs +1 -2

README.md CHANGED Viewed

@@ -39,7 +39,7 @@ Compared to the Python implementation:
 ```bash
 # Clone the repository
-git clone https://github.com/your-org/IndexTTS-Rust.git
 cd IndexTTS-Rust
 # Build in release mode (optimized)

 ```bash
 # Clone the repository
+git clone https://github.com/8b-is/IndexTTS-Rust.git
 cd IndexTTS-Rust
 # Build in release mode (optimized)

benches/mel_spectrogram.rs CHANGED Viewed

@@ -8,9 +8,7 @@ fn bench_mel_spectrogram(c: &mut Criterion) {
     // Generate 1 second of audio
     let num_samples = config.sample_rate as usize;
-    let signal: Vec<f32> = (0..num_samples)
-        .map(|i| (i as f32 * 0.01).sin())
-        .collect();
     c.bench_function("mel_spectrogram_1s", |b| {
         b.iter(|| mel_spectrogram(black_box(&signal), black_box(&config)))
@@ -29,9 +27,7 @@ fn bench_mel_spectrogram(c: &mut Criterion) {
 fn bench_stft(c: &mut Criterion) {
     let config = AudioConfig::default();
     let num_samples = config.sample_rate as usize;
-    let signal: Vec<f32> = (0..num_samples)
-        .map(|i| (i as f32 * 0.01).sin())
-        .collect();
     c.bench_function("stft_1s", |b| {
         b.iter(|| {

     // Generate 1 second of audio
     let num_samples = config.sample_rate as usize;
+    let signal: Vec<f32> = (0..num_samples).map(|i| (i as f32 * 0.01).sin()).collect();
     c.bench_function("mel_spectrogram_1s", |b| {
         b.iter(|| mel_spectrogram(black_box(&signal), black_box(&config)))
 fn bench_stft(c: &mut Criterion) {
     let config = AudioConfig::default();
     let num_samples = config.sample_rate as usize;
+    let signal: Vec<f32> = (0..num_samples).map(|i| (i as f32 * 0.01).sin()).collect();
     c.bench_function("stft_1s", |b| {
         b.iter(|| {

src/audio/dsp.rs CHANGED Viewed

@@ -1,6 +1,5 @@
 //! Digital Signal Processing utilities
-use crate::Result;
 /// Apply pre-emphasis filter to audio signal
 ///

 //! Digital Signal Processing utilities
 /// Apply pre-emphasis filter to audio signal
 ///

src/audio/mod.rs CHANGED Viewed

@@ -7,9 +7,12 @@ mod io;
 pub mod mel;
 mod resample;
-pub use dsp::{apply_preemphasis, dynamic_range_compression, dynamic_range_decompression, normalize_audio, normalize_audio_peak, apply_fade};
 pub use io::{load_audio, save_audio, AudioData};
-pub use mel::{mel_spectrogram, MelFilterbank, mel_to_linear};
 pub use resample::resample;
 use crate::Result;
@@ -48,10 +51,7 @@ impl Default for AudioConfig {
 }
 /// Compute mel spectrogram from audio file
-pub fn compute_mel_from_file(
-    path: &str,
-    config: &AudioConfig,
-) -> Result<ndarray::Array2<f32>> {
     let audio = load_audio(path, Some(config.sample_rate))?;
     mel_spectrogram(&audio.samples, config)
 }

 pub mod mel;
 mod resample;
+pub use dsp::{
+    apply_fade, apply_preemphasis, dynamic_range_compression, dynamic_range_decompression,
+    normalize_audio, normalize_audio_peak,
+};
 pub use io::{load_audio, save_audio, AudioData};
+pub use mel::{mel_spectrogram, mel_to_linear, MelFilterbank};
 pub use resample::resample;
 use crate::Result;
 }
 /// Compute mel spectrogram from audio file
+pub fn compute_mel_from_file(path: &str, config: &AudioConfig) -> Result<ndarray::Array2<f32>> {
     let audio = load_audio(path, Some(config.sample_rate))?;
     mel_spectrogram(&audio.samples, config)
 }

src/config/mod.rs CHANGED Viewed

@@ -289,7 +289,7 @@ impl Config {
         if self.gpt.heads == 0 {
             return Err(Error::Config("GPT heads must be > 0".into()));
         }
-        if self.gpt.model_dim % self.gpt.heads != 0 {
             return Err(Error::Config(
                 "GPT model_dim must be divisible by heads".into(),
             ));

         if self.gpt.heads == 0 {
             return Err(Error::Config("GPT heads must be > 0".into()));
         }
+        if !self.gpt.model_dim.is_multiple_of(self.gpt.heads) {
             return Err(Error::Config(
                 "GPT model_dim must be divisible by heads".into(),
             ));

src/model/embedding.rs CHANGED Viewed

@@ -136,7 +136,7 @@ impl EmotionEncoder {
             .map_err(|e| Error::ModelLoading(format!("Missing emotion_matrix: {}", e)))?;
         let shape = tensor.shape();
-        let mut data: Vec<f32> = tensor.data().chunks_exact(4).map(|b| {
             f32::from_le_bytes([b[0], b[1], b[2], b[3]])
         }).collect();
         if !tensor.data().chunks_exact(4).remainder().is_empty() {
@@ -170,7 +170,7 @@ impl EmotionEncoder {
         let mut embedding = vec![0.0f32; embedding_dim];
         let mut offset = 0;
-        for (dim_idx, (&value, &dim_size)) in emotion_vector.iter().zip(self.dim_sizes.iter()).enumerate() {
             // Interpolate between discrete emotion levels
             let continuous_idx = value * (dim_size - 1) as f32;
             let lower_idx = continuous_idx.floor() as usize;

             .map_err(|e| Error::ModelLoading(format!("Missing emotion_matrix: {}", e)))?;
         let shape = tensor.shape();
+        let data: Vec<f32> = tensor.data().chunks_exact(4).map(|b| {
             f32::from_le_bytes([b[0], b[1], b[2], b[3]])
         }).collect();
         if !tensor.data().chunks_exact(4).remainder().is_empty() {
         let mut embedding = vec![0.0f32; embedding_dim];
         let mut offset = 0;
+        for (WIN_LENGTH, (&value, &dim_size)) in emotion_vector.iter().zip(self.dim_sizes.iter()).enumerate() {
             // Interpolate between discrete emotion levels
             let continuous_idx = value * (dim_size - 1) as f32;
             let lower_idx = continuous_idx.floor() as usize;

src/model/gpt.rs CHANGED Viewed

@@ -1,7 +1,7 @@
 //! GPT-based sequence generation model
 use crate::{Error, Result};
-use ndarray::{Array, Array1, Array2, Array3, IxDyn};
 use std::collections::HashMap;
 use std::path::Path;

 //! GPT-based sequence generation model
 use crate::{Error, Result};
+use ndarray::{Array, Array1, Array2, IxDyn};
 use std::collections::HashMap;
 use std::path::Path;

src/model/mod.rs CHANGED Viewed

@@ -10,8 +10,6 @@ pub use gpt::{GptModel, GptConfig};
 pub use embedding::{SpeakerEncoder, EmotionEncoder, SemanticEncoder};
 pub use session::{OnnxSession, ModelCache};
-use crate::{Error, Result};
-use ndarray::{Array1, Array2, Array3};
 /// Sampling strategy for generation
 #[derive(Debug, Clone)]

 pub use embedding::{SpeakerEncoder, EmotionEncoder, SemanticEncoder};
 pub use session::{OnnxSession, ModelCache};
 /// Sampling strategy for generation
 #[derive(Debug, Clone)]

src/pipeline/synthesis.rs CHANGED Viewed

@@ -3,10 +3,9 @@
 use crate::{
     audio::{load_audio, save_audio, AudioConfig, AudioData},
     config::Config,
-    model::{EmotionEncoder, GptConfig, SamplingStrategy, SemanticEncoder, SpeakerEncoder},
     text::{TextNormalizer, TextTokenizer, TokenizerConfig},
-    vocoder::{BigVGAN, BigVGANConfig, Vocoder},
-    Error, Result, SAMPLE_RATE,
 };
 use ndarray::Array1;
 use std::path::{Path, PathBuf};

 use crate::{
     audio::{load_audio, save_audio, AudioConfig, AudioData},
     config::Config,
+    model::{EmotionEncoder, SamplingStrategy, SemanticEncoder, SpeakerEncoder},
     text::{TextNormalizer, TextTokenizer, TokenizerConfig},
+    vocoder::{BigVGAN, BigVGANConfig, Vocoder}, Result,
 };
 use ndarray::Array1;
 use std::path::{Path, PathBuf};

src/text/mod.rs CHANGED Viewed

@@ -69,7 +69,7 @@ pub fn contains_chinese(text: &str) -> bool {
 /// Check if text contains only ASCII
 pub fn is_ascii_only(text: &str) -> bool {
-    text.chars().all(|c| c.is_ascii())
 }
 /// Split text into segments by language

 /// Check if text contains only ASCII
 pub fn is_ascii_only(text: &str) -> bool {
+    text.is_ascii()
 }
 /// Split text into segments by language

src/text/normalizer.rs CHANGED Viewed

@@ -1,6 +1,6 @@
 //! Text normalization for TTS
-use crate::{Error, Result};
 use lazy_static::lazy_static;
 use regex::Regex;
 use std::collections::HashMap;

 //! Text normalization for TTS
+use crate::Result;
 use lazy_static::lazy_static;
 use regex::Regex;
 use std::collections::HashMap;

src/text/phoneme.rs CHANGED Viewed

@@ -3,7 +3,6 @@
 //! Provides grapheme-to-phoneme (G2P) conversion for English
 //! and Pinyin handling for Chinese
-use crate::Result;
 use lazy_static::lazy_static;
 use std::collections::HashMap;

 //! Provides grapheme-to-phoneme (G2P) conversion for English
 //! and Pinyin handling for Chinese
 use lazy_static::lazy_static;
 use std::collections::HashMap;

src/vocoder/activations.rs CHANGED Viewed

@@ -39,7 +39,7 @@ pub fn anti_aliased_snake(x: &[f32], alpha: f32, upsample_factor: usize) -> Vec<
     // Upsample
     let upsampled: Vec<f32> = x
         .iter()
-        .flat_map(|&v| std::iter::repeat(v).take(upsample_factor))
         .collect();
     // Apply activation

     // Upsample
     let upsampled: Vec<f32> = x
         .iter()
+        .flat_map(|&v| std::iter::repeat_n(v, upsample_factor))
         .collect();
     // Apply activation

src/vocoder/bigvgan.rs CHANGED Viewed

@@ -3,7 +3,7 @@
 //! High-quality neural vocoder for mel-spectrogram to waveform conversion
 use crate::{Error, Result};
-use ndarray::{Array, Array2, IxDyn};
 use std::collections::HashMap;
 use std::path::Path;

 //! High-quality neural vocoder for mel-spectrogram to waveform conversion
 use crate::{Error, Result};
+use ndarray::{Array2, IxDyn};
 use std::collections::HashMap;
 use std::path::Path;

src/vocoder/mod.rs CHANGED Viewed

@@ -8,9 +8,8 @@ mod activations;
 pub use bigvgan::{BigVGAN, BigVGANConfig, create_bigvgan_22k, create_bigvgan_24k};
 pub use activations::{snake_activation, snake_beta_activation, snake_activation_vec};
-use crate::{Error, Result};
 use ndarray::Array2;
-use num_complex::Complex;
 /// Vocoder trait for mel-to-waveform conversion
 pub trait Vocoder {

 pub use bigvgan::{BigVGAN, BigVGANConfig, create_bigvgan_22k, create_bigvgan_24k};
 pub use activations::{snake_activation, snake_beta_activation, snake_activation_vec};
+use crate::Result;
 use ndarray::Array2;
 /// Vocoder trait for mel-to-waveform conversion
 pub trait Vocoder {