OpenVoice : L’IA de clonage vocal

Marie Louisy
De Marie Louisy 6 min de lecture
6 min de lecture

Clonage vocal en temps réel avec OpenVoice : un regard en dépert sur l’outil d’IA innovant de MyShell

OpenVoice clone la voix en temps réel. Dévoilée en début d’année par MyShell, elle a été assortie d’un document de recherche explicatif, des sites de démonstration On-Site, et d’une plateforme d’essayage libre sur HuggingFace. 

Dans cet article, vous trouverez un récapitulatif de ce qu’on sait de ce bijou technologique.   

Qui est MyShell, la créatrice de OpenVoice ?

MyShell1 est une startup californienne fondée en 2023 sur un financement de base estimé à 5,6 millions de dollars US. Elle mobilise actuellement plus de 400 000 utilisateurs. L’objectif de la plateforme MyShell est de créer et distribuer des applications d’IA. Elle propose :

  • Des générateurs de mèmes
  • Des personnalités de chatbots textuelles uniques
  • Un service de création de RPG textuels pour et par l’utilisateur
  • La promotion de robots tiers sur sa plateforme
  • Des abonnements variés

Pour créer OpenVoice, MyShell s’est associée à des chercheurs du MIT et de l’Université Tsinghua. 

Quelles sont les caractéristiques de OpenVoice ?

OpenVoice comporte 2 modèles d’IA qui travaillent en synchronisation pour convertir le texte en parole et cloner la voix :

  • Le premier a été formé à l’aide de 30 000 échantillons audio de locuteurs japonais, chinois et anglais. Il prend en charge les émotions, le style de langage, les accents et les modèles de discours
  • Le second a été formé à l’aide de 300 000 échantillons audio avec un total de 20 000 voix. Il sert de convertisseur de tonalité 

OpenVoice comporte plusieurs autres fonctionnalités intéressantes :

  • Clone la voix en temps réel
  • Permet de contrôler l’accent, le ton, l’émotion, le rythme, etc.
  • Est instantané
  • Utilise peu de données
  • Compatible pour le système TTS à un ou plusieurs haut-parleurs
  • Entraîné sur des étiquettes de phonèmes de l’alphabet phonétique international2

MyShell a résumé les fonctionnalités de son invention en quelques mots :

Nous présentons OpenVoice, une approche polyvalente de clonage vocal instantané qui ne nécessite qu’un court clip audio du locuteur de référence pour reproduire sa voix et générer une parole dans plusieurs langues. OpenVoice permet un contrôle granulaire des styles de voix, notamment l’émotion, l’accent, le rythme, les pauses et l’intonation, en plus de reproduire la couleur tonale du locuteur de référence. OpenVoice réalise également un clonage vocal multilingue sans tir pour les langues non incluses dans l’ensemble de formation des locuteurs massifs. OpenVoice est également efficace sur le plan informatique, coûtant des dizaines de fois moins cher que les API disponibles dans le commerce qui offrent des performances encore inférieures.

Avant son déploiement grand public, OpenVoice a été utilisé en interne courant 2023 par les utilisateurs du backend de clonage vocal instantané de MyShell. Il s’agit d’un modèle d’IA innovant, qui surmonte les limites des méthodes précédentes. Il est disponible en open source3 sur HuggingFace. 

Quels sont les principaux concurrents de OpenVoice ?

Les deux modèles d’IA vocale les plus similaires à OpenVoice sont les suivants :

  1. EchoSpeech : Créé par un étudiant de Cornell, EchoSpeech permet aux utilisateurs de communiquer avec d’autres via un smartphone. Il peut lire sur les lèvres de l’utilisateur grâce à un sonar précis jusqu’à 95%. Grâce à EchoSpeech, vous pouvez communiquer sans produire de son.
  2. VALL-E : Il crée un discours personnalisé en s’appuyant sur des messages acoustiques. Développé par Microsoft, il est alimenté par le Neural Codec Language Modeling et nécessite seulement un enregistrement voix de 03 secondes. Il ajoute du bruitage et préserve l’environnement ainsi que l’émotion du message vocal pour un discours réaliste. 

Quels sont les risques ?

Pour le moment, les risques sont difficilement mesurables. Ils sont à la fois éthiques et sécuritaires. Nous citerons :

  • Le clonage vocal sans consentement : Pour cloner la voix, OpenVoice ne nécessite qu’un bref échantillon. Sans contrôle adéquat, cela ouvre la voie à la diffamation, l’usurpation d’identité ou la fraude
  • La tromperie sur la voix4 : Lorsque l’imitation vocale sera parfaite, il sera difficile de la discerner d’authentifier la qualité d’une voix réelle. Des outils établissant la transparence de l’utilisation seront indispensables.
  • La manipulation vocale et la tromperie : OpenVoice est capable de générer des messages trompeurs au sujet de l’intention et des sentiments réels de leur auteur, d’où la nécessité de balises de contrôle. 

Des rencontres sont à prévoir pour estimer les mesures à prendre pour préserver l’identité vocale et l’authentification des utilisateurs. 

Des fonctionnalités sans précédent   

OpenVoice débarque avec des fonctionnalités sans précédent :

  • La vitesse
  • La précision
  • La synchronisation
  • Une base de données étendue

Arthur Charles Clarke affirme que “Toute technologie avancée est magique.” Dans le cas de OpenVoice, vous trouvez plutôt un monde de subtilités travaillées au millimètre près. 


Références

  1. OpenVoice: Versatile Instant Voice Cloning, MyShell. Consulté le 26 avril 2024. ↩︎
  2. OpenVoice is an Open-Source, Instant Voice Cloning AI, Maginative. Publié le 02 janvier 2024. Consulté le 26 avril 2024. ↩︎
  3. myshell-ai/ OpenVoice, GitHub. Consulté le 26 avril 2024. ↩︎
  4. OpenVoice AI: A Revolutionary Voice Cloning Tool, Hyscaler. Publié le 09 janvier 2024. Consulté le 26 avril 2024. ↩︎
Partagez cet article