Produits et Services

L'IA prête à l'emploi pour l'audio et la parole

Traiter et analyser des signaux audio et de la parole à l'aide d'une IA préentraînée

Audio Toolbox et l'interface Audio Toolbox pour les bibliothèques SpeechBrain et Torchaudio permettent de réaliser des tâches avancées de traitement et d'analyse de signaux audio et de la parole, à l'aide de modèles d'intelligence artificielle préentraînés.

En utilisant des appels de fonction individuels et sans nécessiter d'expertise en matière de Deep Learning, vous pouvez :

  • Transcrire la parole à l'aide de la reconnaissance automatique de la parole (ASR), en utilisant des pipelines de transcription de la parole en texte (STT)
  • Synthétiser la parole à l'aide de pipelines de synthèse vocale (TTS)
  • Détecter la parole grâce à la détection de l'activité vocale (VAD), identifier les langues parlées et classifier les sons
  • Inscrire et identifier les locuteurs à l'aide de modèles de Deep Learning pour la reconnaissance des locuteurs ainsi que de pipelines de Machine Learning
  • Séparer les sources vocales dans un problème cocktail party et améliorer et débruiter les signaux de parole
  • Estimer la hauteur de la musique et extraire les embeddings à partir de signaux audio, de parole et musicaux

Les fonctions utilisent des modèles de Machine Learning et de Deep Learning préentraînés, et sont exécutées à l'aide d'une combinaison de MATLAB, Python® et PyTorch®.

Pictogramme illustrant l'utilisation d'un réseau dans un casque capable de transcrire la parole en texte.

Interface Audio Toolbox pour les bibliothèques SpeechBrain et Torchaudio

L'interface Audio Toolbox pour les bibliothèques SpeechBrain et Torchaudio permet d'utiliser une collection de modèles d'intelligence artificielle préentraînés avec les fonctions de l'Audio Toolbox pour le traitement et l'analyse des signaux.

L'interface automatise l'installation de Python et de PyTorch, et télécharge des modèles de Deep Learning sélectionnés à partir des bibliothèques SpeechBrain et Torchaudio. Une fois installée, elle exécute les fonctions suivantes grâce à l'utilisation sous-jacente de modèles d'intelligence artificielle locaux :

  • speech2text accepte un objet speechClient avec le modèle défini sur emformer ou whisper, en plus du modèle local wav2vec, et les options de service cloud comme Google, IBM, Microsoft ou Amazon. L'utilisation de whisper nécessite également le téléchargement des pondérations du modèle séparément, comme décrit dans Download Whisper Speech-to-Text Model.
  • text2speech accepte un objet speechClient avec le modèle défini sur hifigan, en plus des options de service cloud comme Google, IBM, Microsoft ou Amazon.

Les fonctions speech2text et text2speech acceptent et renvoient des chaînes de texte et des échantillons audio. Ces fonctions vous dispensent de coder le prétraitement du signal, l'extraction des caractéristiques, la prédiction du modèle et le post-traitement des résultats.

Objet client vocal avec liste d'options de modèle.
Code utilisant la fonction speech2text avec un objet speechClient différent de celui par défaut pour le modèle Whisper en mode traduction.

Traduire et transcrire de la parole multilingue à l'aide de Whisper

Code utilisant la fonction text2speech pour générer une voix synthétique à partir d'un texte.

Synthétiser la parole à partir d'un texte à l'aide d'un modèle local

Application Signal Labeler avec signal vocal étiqueté et superposition de la forme d'onde identifiant les mots parlés avec leur transcription.

Étiqueter les enregistrements vocaux en utilisant la synthèse vocale dans Signal Labeler

IA prête à l'emploi avec fonctions supplémentaires pour la parole et l'audio

Audio Toolbox comprend des fonctions supplémentaires, telles que classifySound, separateSpeakers, enhanceSpeech, detectspeechnn, pitchnn et identifyLanguage. Ces fonctions vous permettent d'utiliser des modèles avancés de Deep Learning pour le traitement et l'analyse des signaux audio, sans nécessiter d'expertise en matière d'IA. Ces modèles ne nécessitent pas l'interface Audio Toolbox pour les bibliothèques SpeechBrain et Torchaudio.

Tracé du signal sonore avec segments marqués, mettant en évidence des classes de sons spécifiques.

Classification des sons avec classifySound

Quatre tracés : mixage audio original, deux composantes vocales séparées et le signal résiduel d'amplitude négligeable.

Séparation des sources de la parole avec separateSpeakers

Grille de tracé deux par deux montrant deux signaux différents et des spectrogrammes temps-fréquence qui mettent en évidence les différences entre l'enregistrement original et sa version améliorée.

Amélioration de la qualité de la parole avec enhanceSpeech

Utiliser MATLAB avec PyTorch pour le développement de modèles de Deep Learning

Les utilisateurs de MATLAB et de PyTorch qui ont des connaissances en Deep Learning peuvent utiliser les deux langages ensemble pour développer et entraîner des modèles d'IA, notamment grâce à des workflows de coexécution et d'échange de modèles.

En savoir plus :