Aller au contenu

Enhance Speech peut-il réellement améliorer vos enregistrements vocaux?

Améliorer la qualité sonore de vos enregistrements vocaux et obtenir des résultats comparables à ceux d’un studio professionnel équipé de microphones de haute qualité. Voilà les prétentions de l’outil Enhance Speech d’Adobe basé sur l’intelligence artificielle. Le jeu en vaut-il la chandelle ? Écoutons ça.

L’intelligence artificielle travaille pour vous

La réputée compagnie Adobe, connue en outre pour sa suite Adobe Creative Cloud, lançait récemment un outil gratuit de correction et d’amélioration des enregistrements vocaux, qui s’appuie sur la technologie de l’intelligence artificielle (IA).

L’outil appelé Enhance Speech retire les bruits ambiants et corrige les enregistrements de faible qualité afin de rendre la voix plus claire et audible.

Il s’intègre dans une série d’autres produits de la firme Adobe destinés aux podcasteurs et appelés Adobe Podcast, dont la vérification du micro, ainsi que la transcription textuelle des fichiers audio, qui n’est accessible pour l’heure que sur invitation.

Comme on s’est dit que ce qui est bon pour pitou l’est aussi pour minou, ou ce qui est bon pour un podcasteur devrait l’être aussi pour un animateur radio, on a essayé l’outil en question.

Est-il convaincant ? Écoutons plutôt les résultats.

Un outil simple d’utilisation

D’entrée de jeu, sachez qu’il est nécessaire de posséder un compte Adobe afin de l’utiliser, et ce, même s’il est gratuit d’utilisation.

Une fois connectée, l’interface s’avère pour le moins minimaliste, comme en témoigne l’image plus bas.

La prise en main est quant à elle plutôt simple et les interactions limitées. On fournit simplement le fichier sonore à corriger, puis l’on presse un bouton et on attend.

Interface de Enhance Speech

(Capture d’écran de https://podcast.adobe.com/enhance)

Comme avec bien d’autres sites web, il suffira de cliquer pour ouvrir l’explorateur de fichiers sur l’ordinateur, ou encore de simplement glisser et déposer celui-ci directement dans la fenêtre du navigateur.

On peut utiliser les formats MP3 ou WAV seulement. La durée maximale est d’une heure et 1 GB par fichier.

Dépendamment de la taille de votre fichier, l’intelligence artificielle pourrait mettre jusqu’à une dizaine de minutes pour accomplir le travail.

Un robot assis devant une console de production audio dans un studio

Des résultats inégaux qui dépendent de divers facteurs

Honnêtement, certains résultats sont plutôt convaincants, comme en témoignent l’exemple ci-dessous.

Dans le premier enregistrement, vous entendez un extrait de l’émission « Peut contenir des infos » produite dans notre studio.

Le local d’enregistrement ne profite pas d’une insonorisation parfaite, comme on l’entend dans l’extrait No. 1 d’à peu près six (6) secondes.

On peut y percevoir des bruits ambiants en arrière-plan, ainsi qu’un peu de réverbération. Cela dit, les microphones Electro-Voice qu’on utilise sont en revanche de très bonne qualité.

Quand on écoute ensuite l’extrait No. 2 ci-dessous, une fois corrigé, on s’aperçoit que la réverbération a été considérablement réduite, beaucoup de bruit ambiant a été retiré, et tant les aigües que les basses ont été ajustées.

La différence est flagrante. On est certes encore loin des résultats qu’on obtiendrait dans un studio professionnel, mais ça reste intéressant comme produit final.

À titre d’information, le fichier corrigé qu’on a téléchargé depuis le site d’Adobe était en format WAV avec un débit binaire de 1536 kilobit/seconde, soit 192 kilobytes/seconde.

Pour les fins de la démonstration, et pour que chacun des extraits soit écouté de la même façon, on a ramené les deux en MP3. Avec un débit constant de 192 kilobytes/seconde, ce qui était le débit de l’extrait original de toute manière.

Si vous obtiendrez des résultats certainement intéressants dans bien des cas, comme on l’entend plus haut, ne vous attendez toutefois pas à la perfection dans toutes les situations.

C’est particulièrement vrai pour les enregistrements téléphoniques, qui, loin d’être améliorés, ont même été passablement dégradés dans chacun de nos essais. En voici un exemple avec un extrait d’une entrevue réalisée cet automne…

On a fait exactement la même chose en mettant les deux extraits au même débit binaire en format MP3. L’extrait original est en haut, tandis que la version qui a subi un traitement d’Adobe Enhance Speech est juste en dessous.

Bien sûr, on a beaucoup moins le sentiment d’entendre une personne au téléphone dans le second extrait. Cependant, les changements sont tels, qu’on a presque l’impression qu’il ne s’agit plus tout à fait de la même personne qui parle.

Voilà une démonstration qui prouve que l’outil a ses limites et ne peut tout accomplir.

En conclusion

Difficile de dire comment fonctionne l’intelligence artificielle. L’entreprise étant avare de commentaire.

Sans doute a-t-elle été entraînée avec plusieurs extraits sonores de voix humaines, afin d’en déterminer les fréquences et les tonalités, dont elle s’inspire pour recréer des fichiers audio corrigés.

Cela dit, il semble que l’intelligence artificielle fonctionne mieux quand il n’y a ni trop de bruits ambiants, ni d’interférence, ni de parasite audio.

Ne vous attendez donc pas à des résultats miraculeux. En tout cas, pas à chaque tentative.

Un outil comme celui-ci pourrait vous rendre service pour des enregistrements qui ne profitent pas déjà des conditions optimales. Avec un micro d’ordinateur, par exemple.

En revanche, si vous bénéficiez déjà de conditions sonores passablement satisfaisante, et ce, même sans qu’elles ne soient forcément parfaites, sans doute serez-vous mieux servis avec les outils de correction sonore déjà présents dans votre logiciel d’enregistrement.

Même une fonction aussi simple que la réduction de bruit d’un logiciel comme Audacity pourrait vous surprendre par ses résultats.

Parfois, mieux vaut accomplir le travail soi-même et qu’il soit bien accompli, plutôt que de s’en remettre à la machine.

Réduction de bruit dans Audacity

Réduction de bruit dans Audacity

La meilleure façon d’obtenir de bons enregistrements vocaux, ce n’est pas tant de chercher à corriger à postériori des résultats qui ne sont déjà pas très bons.

C’est d’abord et avant tout de partir avec des conditions optimales et de l’équipement de qualité.

Bref, mettez d’abord les chances de votre bord en commençant si vous espérez obtenir des résultats plus satisfaisants.

Peut-être l’outil s’améliorera-t-il à force de s’entraîner et d’ajustements. Pour l’heure, il est intéressant mais il n’y a rien pour écrire à sa mère.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.

%d blogueurs aiment cette page :