Audio Toolbox et l'interface Audio Toolbox pour les bibliothèques SpeechBrain et Torchaudio permettent de réaliser des tâches avancées de traitement et d'analyse de signaux audio et de la parole, à l'aide de modèles d'intelligence artificielle préentraînés.
En utilisant des appels de fonction individuels et sans nécessiter d'expertise en matière de Deep Learning, vous pouvez :
- Transcrire la parole à l'aide de la reconnaissance automatique de la parole (ASR), en utilisant des pipelines de transcription de la parole en texte (STT)
- Synthétiser la parole à l'aide de pipelines de synthèse vocale (TTS)
- Détecter la parole grâce à la détection de l'activité vocale (VAD), identifier les langues parlées et classifier les sons
- Inscrire et identifier les locuteurs à l'aide de modèles de Deep Learning pour la reconnaissance des locuteurs ainsi que de pipelines de Machine Learning
- Séparer les sources vocales dans un problème cocktail party et améliorer et débruiter les signaux de parole
- Estimer la hauteur de la musique et extraire les embeddings à partir de signaux audio, de parole et musicaux
Les fonctions utilisent des modèles de Machine Learning et de Deep Learning préentraînés, et sont exécutées à l'aide d'une combinaison de MATLAB, Python® et PyTorch®.
Interface Audio Toolbox pour les bibliothèques SpeechBrain et Torchaudio
L'interface Audio Toolbox pour les bibliothèques SpeechBrain et Torchaudio permet d'utiliser une collection de modèles d'intelligence artificielle préentraînés avec les fonctions de l'Audio Toolbox pour le traitement et l'analyse des signaux.
L'interface automatise l'installation de Python et de PyTorch, et télécharge des modèles de Deep Learning sélectionnés à partir des bibliothèques SpeechBrain et Torchaudio. Une fois installée, elle exécute les fonctions suivantes grâce à l'utilisation sous-jacente de modèles d'intelligence artificielle locaux :
speech2textaccepte un objetspeechClientavec le modèle défini suremformerouwhisper, en plus du modèle localwav2vec, et les options de service cloud commeGoogle,IBM,MicrosoftouAmazon. L'utilisation dewhispernécessite également le téléchargement des pondérations du modèle séparément, comme décrit dans Download Whisper Speech-to-Text Model.text2speechaccepte un objetspeechClientavec le modèle défini surhifigan, en plus des options de service cloud commeGoogle,IBM,MicrosoftouAmazon.
Les fonctions speech2text et text2speech acceptent et renvoient des chaînes de texte et des échantillons audio. Ces fonctions vous dispensent de coder le prétraitement du signal, l'extraction des caractéristiques, la prédiction du modèle et le post-traitement des résultats.
Étiqueter les enregistrements vocaux en utilisant la synthèse vocale dans Signal Labeler
IA prête à l'emploi avec fonctions supplémentaires pour la parole et l'audio
Audio Toolbox comprend des fonctions supplémentaires, telles que classifySound, separateSpeakers, enhanceSpeech, detectspeechnn, pitchnn et identifyLanguage. Ces fonctions vous permettent d'utiliser des modèles avancés de Deep Learning pour le traitement et l'analyse des signaux audio, sans nécessiter d'expertise en matière d'IA. Ces modèles ne nécessitent pas l'interface Audio Toolbox pour les bibliothèques SpeechBrain et Torchaudio.
Utiliser MATLAB avec PyTorch pour le développement de modèles de Deep Learning
Les utilisateurs de MATLAB et de PyTorch qui ont des connaissances en Deep Learning peuvent utiliser les deux langages ensemble pour développer et entraîner des modèles d'IA, notamment grâce à des workflows de coexécution et d'échange de modèles.
En savoir plus :
- Interopérabilité entre Deep Learning Toolbox, TensorFlow, PyTorch et ONNX
- Ressources pour utiliser MATLAB et Python
- Coexécution de PyTorch et TensorFlow pour l'apprentissage d'un système de reconnaissance de commandes vocales
- Utiliser un système de reconnaissance de commandes vocales en Python dans MATLAB