Ces dernières années, la multiplication des jeux vidéo et des formations en ligne (e-learning) a bouleversé le mode de travail des entreprises de localisation. À l’origine, les formations étaient traduites sous forme de documentation papier (en général en très grandes quantités) ; mais l’essor des formations multimédia a nécessité de s’adapter à une nouvelle manière de penser et de travailler. Cela se vérifie d’autant plus avec les projets audio.
Sur les cinq dernières années seulement, le nombre de projets audio inclus dans les demandes de projets de traduction reçues par les entreprises de localisation a connu une croissance inégalée. Aujourd’hui, les projets multimédia, composés d’audio, de vidéo ou tout autre format de capture de mouvement, nécessitent une équipe à temps plein pour s’assurer que les clients recevront une expertise et un professionnalisme identiques à ce qu’ils peuvent attendre d’un projet de traduction classique.
En effet, si les règles d’or de la traduction traditionnelle consistent à coller au document source, à conserver la mémoire de traduction (TM) à jour et à rester fidèle au style de l’auteur, lorsqu’il s’agit de projets audio, ces règles se doivent d’être flexibles. En particulier en ce qui concerne la première question que le client doit se poser : choisir entre une voix d’acteur et une voix de synthèse. Voyons donc ce que ce choix implique.
L’Homme, dépassé par la machine
Qu’ils intègrent des voix de synthèse ou d’acteurs professionnels, la première chose à garder à l’esprit avec les projets audio d’e-learning est la manière dont la majorité d’entre eux ont été créés. La plupart des Systèmes de Gestion de Contenus de Formation sont conçus de la même manière. Ils comportent des visuels (Flash, Captivate ou de simples vidéos) ainsi que des fichiers audio. Un LCMS collecte tous ces fichiers individuels et les regroupe pour les afficher ou les jouer selon un système de dénomination spécifique.
Cela signifie qu’une entreprise de localisation travaillant sur des projets audio doit décider comment elle va gérer des centaines de fichiers audio ne dépassant généralement pas quelques secondes. Vous pouvez d’ores et déjà imaginer les coûts potentiels et le temps nécessaire réservé à l’ingénierie pour des tâches audio comme celles-ci : c’est ici que les voix de synthèse peuvent, dans une certaine mesure, devenir utiles.
Les voix de synthèse existent depuis des années. En effet, la première machine à générer une voix synthétique « naturelle » a été construite dans les années 1950. Dès 1961, des informaticiens avaient réussi à programmer une machine pour qu’elle « chante » « Daisy Bell », un exploit qui a inspiré l’auteur Arthur C. Clarke dans l’écriture de son roman 2001 : L’Odyssée de l’espace, au moment de représenter l’ordinateur tout puissant Hal retournant lentement au stade de sa propre création. Dans la version cinématographique de Kubrick, la scène dans laquelle Hal chante « Daisy, Daisy, give me your answer do » a représenté, pendant de nombreuses années, la plus célèbre des voix de synthèse. Mais aujourd’hui, votre téléphone peut vous informer d’une voix posée si vous devez acheter du lait. Les miracles de la technologie…
La science de base derrière ces outils est connue sous le nom de Synthèse vocale (TTS, de l’anglais « Text-To-Speech »). C’est le point de départ de toute voix de synthèse. Pour faire simple, la machine développée dans les années 1950, et représentée aujourd’hui par des logiciels fonctionnant sur un PC ordinaire ou bien sur Internet, utilisait un mot pour le transformer en représentation audio. Aujourd’hui, les principaux lecteurs de synthèse vocale offrent des voix masculines et féminines dans toutes les langues majeures, et parfois même dans des dialectes. Cela permet à une entreprise d’avoir instantanément accès à un large éventail de marchés sans avoir à chercher un acteur voix dans chaque pays.
Bien que l’idée de base soit facile à suivre, la technologie qu’elle induit et les règles qui la gouvernent sont naturellement bien plus complexes. Tout particulièrement lorsque vous devez réfléchir à la phonétique. Des années d’études, comprenant une programmation intelligente ainsi que des compétences en langue phonétique, sont nécessaires aux personnes travaillant à la pointe de la synthèse vocale. Mais il ne s’agit pas simplement de taper quelques mots puis d’en enregistrer le son. Regardons concrètement de quelle manière les entreprises de localisation doivent appréhender la synthèse vocale.
Comme mentionné auparavant, l’avantage principal de la synthèse vocale est sa capacité à gérer un grand nombre de fichiers par lots. Si votre module d’e-learning comporte 250 fichiers audio différents, chacun long de seulement quelques mots, alors la synthèse vocale peut être un bon point de départ. La plupart des outils de synthèse vocale permettent à l’utilisateur de créer de multiples fichiers d’entrée sous forme de simples fichiers texte. Cela signifie que les utilisateurs peuvent éditer et réviser l’intégralité de leur texte avant de générer les fichiers audio. Une fois qu’ils sont satisfaits du texte, ils peuvent tout simplement traiter les fichiers d’entrée par lots, générant des fichiers audio ayant le même nom, et utilisant le texte de chaque fichier. Dans ces projets pour lesquels le temps, le budget et les aptitudes en ingénierie sont une contrainte, cette méthode de travail peut être une alternative intéressante aux voix d’acteur. L’utilisateur final génère des centaines de fichiers, déjà nommés, comportant le texte approprié. Aucun tiers n’est nécessaire, le procédé est simple et rapide, et de nombreux fichiers peuvent être produits par n’importe qui à l’aide d’un PC et d’une voix de synthèse.