Cependant, comme évoqué auparavant, les experts en synthèse vocale ont des années d’entraînement, une très grande expérience en linguistique et en phonétique et sont capables de « voir » la langue d’une autre manière. Le problème principal est donc de savoir si vous avez quelqu’un dans votre entreprise qui réfléchit de la même manière. Si vous désirez obtenir une élocution « parfaite », ou une voix qui prononce les mots de la manière dont vous pensez qu’ils devraient l’être, alors vous allez avoir besoin d’un expert en linguistique qui ajustera et modèlera le texte d’entrée. Dans un monde parfait, il existerait une personne maîtrisant parfaitement la phonétique, qui pourrait taper en utilisant les caractères phonétiques pour s’assurer que tous les mots soient prononcés correctement. La prononciation est probablement la plus grande difficulté technique que posent les voix de synthèse. Par exemple, dans un module d’e-learning typique, vous vous attendriez à entendre le mot « e-learning » plus d’une fois. Cela me fait penser à un projet, dans lequel alterner entre deux voix de synthèse, l’une masculine et l’autre féminine, nous a permis de réaliser que les voix prononçaient ce mot différemment. Idéalement, c’est à ce moment là que votre expert en phonétique interviendrait et réécrirait le code phonétique pour s’assurer que les prononciations soient changées. Mais que faites-vous si vous ne disposez pas de cet expert dans la langue dans laquelle vous travaillez ? Payer un freelance ou toute personne externe à votre entreprise serait coûteux et réduirait à néant les économies effectuées par l’utilisation première de la synthèse vocale.
L’une des solutions les plus utilisées est alors de « tricher » en créant de nouveaux mots. Dans notre cas, il s’agirait de modifier l’orthographe d’un mot, (par exemple, changer « e-learning » par « i-leurning ») ce qui permettrait d’obtenir une bonne prononciation ; alors que pour l’autre voix, une simple modification de l’intonation (par un changement de ponctuation) ferait l’affaire. Malgré tout, ce genre d’ajustement précis ne peut être effectué que dans sa propre langue maternelle, et c’est très certainement le plus gros inconvénient des langues de synthèse. Cette technologie est indubitablement superbe et s’améliore continuellement. Et si la vitesse de production, la quantité et (parfois) le prix sont plus importants que la qualité générale du son, alors la synthèse vocale est une solution parfaitement adéquate pour une entreprise à la recherche de nombreux fichiers audio. Gardez simplement à l’esprit qu’il ne s’agit pas juste d’effectuer un simple remplacement orthographique, d’écouter le fichier puis de le fermer. Et que faire si des restrictions de temps sont appliquées aux fichiers audio ? Si vous deviez synchroniser le son à une image ou à un point de repère ? Bien que la synthèse vocale permette de modifier la vitesse de diction, la quantité de programmation impliquée (et par conséquent le temps nécessaire pour produire et vérifier les fichiers) peut très vite être doublée. Alors méfiez-vous ! Cela nous mène doucement vers ce qui est probablement le principal inconvénient de la synthèse vocale : elle peut être plus intelligente, plus rapide et parfois même moins chère, mais elle ne correspond toujours pas à la voix d’un acteur !