Ces 18 derniers mois, les systèmes d’IA vocale ont franchi des seuils qui ont surpris jusqu’à ceux qui les construisent.

Amazon a refondu la reconnaissance vocale d’Alexa. Le système tourne désormais sur un grand modèle de synthèse vocale entraîné sur des milliers d’heures d’audio multi-locuteurs, multilingue, multi-accents et multi-styles d’élocution. Il peut changer de langue au milieu d’une phrase. Il capte la prosodie émotionnelle de l’interlocuteur. Il rit quand l’interlocuteur rit.

OpenAI a lancé ChatGPT Translate en produit autonome. Google a sorti TranslateGemma, une famille de modèles de traduction à poids ouverts. RWS s’est associé à Cohere pour construire Language Weaver Pro. SAP a dévoilé une stratégie de localisation pilotée par l’IA qui intègre traduction, planification linguistique par risque et simplification des processus à travers la pile d’entreprise.

Chacun de ces développements est un saut de capacité réel. L’IA vocale et la traduction sont passées de curiosités de laboratoire à des systèmes déployables en production.

Mais sous chacun de ces systèmes, il y a une histoire qui n’apparaît pas dans les communiqués de presse.

La main-d’œuvre invisible derrière chaque IA multilingue

Les modèles ne sont pas entraînés à partir de rien. Ils sont entraînés sur de la parole. De la vraie parole. Enregistrée par de vrais humains, dans de vraies langues, dans de vrais environnements, dans de vraies conversations.

Et voici ce qui devient évident dès qu’on commence à travailler dans cette partie de l’industrie : plus l’IA s’approche du bord de la langue humaine, plus les exigences de données deviennent dures et spécifiques.

Il y a six ans, entraîner un système basique de reconnaissance vocale en anglais nécessitait quelques heures d’enregistrements propres en conditions de studio. Aujourd’hui, entraîner un système capable de gérer un appel de service client à Hong Kong — où le locuteur peut alterner trois fois entre le cantonais et l’anglais dans une seule phrase, dans un environnement de bureau avec du bruit de fond, avec une prononciation régionale qui diffère à la fois du mandarin continental et du cantonais standardisé — exige un type de données fondamentalement différent.

Ces données n’existent pas sur le web ouvert. Elles ne peuvent pas être récoltées sur YouTube. Elles ne peuvent pas être synthétisées de manière fiable, même avec les derniers modèles TTS, parce que les données synthétiques entraînées sur des données synthétiques mènent à un effondrement du modèle sur la longue traîne.

Elles doivent être enregistrées. Par des gens. Qui parlent réellement ainsi. Dans les bons environnements. Selon des spécifications techniques strictes. Avec un consentement et une traçabilité clairs.

Pourquoi le code-switching est la frontière actuelle

Dans la recherche en IA vocale en ce moment, l’un des domaines les plus actifs est le « code-switching » — le phénomène où les locuteurs bilingues alternent entre deux langues ou plus au sein d’un même énoncé.

C’est partout dans le monde réel. Un employé de bureau à Hong Kong qui explique un projet alterne entre le cantonais et l’anglais plusieurs fois par phrase. Un Singapourien qui commande à manger passe de l’anglais au malais au mandarin au hokkien selon qui est à table. Un professionnel bilingue espagnol-anglais à Miami bascule entre les langues selon le registre émotionnel de ce qu’il dit.

Pendant des décennies, les systèmes de reconnaissance vocale automatique géraient mal le code-switching, ou pas du tout. Les systèmes étaient entraînés sur des données monolingues, et les énoncés alternés les cassaient.

Cela change en 2026. Les chercheurs de NTU Singapour publient sur l’ASR de code-switching augmenté par TTS. Hugging Face a publié FineTranslations, un jeu de données parallèle multilingue de mille milliards de tokens. Le programme LINGUA de Microsoft finance 11 projets pour construire des jeux de données pour les langues européennes peu dotées. La communauté de recherche mondiale converge vers la conclusion que le prochain saut en capacité vocale de l’IA passe par les données de code-switching et de langues peu dotées.

Mais pour que ce travail passe des articles de recherche aux produits expédiés comme Alexa, Google Assistant ou l’automatisation de centres d’appel d’entreprise, quelqu’un doit enregistrer la parole réelle. Des locuteurs natifs, bilingues fluides, faisant des conversations réalistes à deux rôles. Dans des dialectes spécifiques. Dans des environnements spécifiques. À des standards de qualité spécifiques.

C’est l’un des types de travaux que nous effectuons.

À quoi cela ressemble sur le terrain

Enregistrer des données vocales pour l’entraînement de l’IA n’est pas ce que la plupart des gens imaginent. Ce n’est pas un enregistrement téléphonique informel. C’est un processus de production aux spécifications étroites.

Un lot typique que nous livrons comprend des dizaines de scripts écrits pour des conversations à deux locuteurs — l’un dans le rôle du client, l’autre dans celui de l’agent de service — avec des instructions précises sur la fréquence d’échantillonnage, les canaux audio, l’environnement d’enregistrement, l’équilibre de genre des locuteurs et la structure des tours de parole. Les locuteurs doivent être natifs dans le dialecte cible. Ils doivent maîtriser suffisamment l’anglais pour alterner naturellement entre les deux, sans avoir l’air de lire. L’environnement doit produire un audio propre avec les caractéristiques de fond appropriées.

Nous sélectionnons les locuteurs. Nous les briefons sur la structure du script et le style conversationnel exigé. Nous supervisons les sessions d’enregistrement pour garantir le respect des spécifications techniques. Nous gérons les métadonnées — identifiants de locuteurs, numéros de lots, conventions de nommage des fichiers, séparation des canaux — dont dépendent les pipelines en aval. Nous livrons dans des délais qui s’inscrivent dans des calendriers d’entraînement d’IA plus larges où tout retard se propage.

Rien de tout cela n’est glamour. Tout cela requiert un jugement que l’IA ne peut pas encore fournir.

L’IA entraînée en aval pourra un jour gérer les appels de service client à Hong Kong avec fluidité. Mais pour y arriver, de vrais humains ont dû d’abord modéliser cette fluidité.

Les implications pour les marques internationales

Il y a deux enseignements ici, l’un spécifique à l’industrie de la langue, l’autre plus large.

Pour l’industrie de la langue, le récit selon lequel « l’IA remplace les traducteurs » manque l’endroit où le vrai travail se déplace. Oui, l’IA prend en charge la traduction de routine. Au même moment, l’IA crée une demande massive de travail linguistique humain hautement spécifique — enregistrement, annotation, évaluation, jugement — qui n’existait pas il y a dix ans. La frontière des services linguistiques se déplace de la production de traductions vers la production des données qui rendent les traductions par IA possibles.

Pour les marques qui s’internationalisent, l’enseignement est plus subtil. Les outils de traduction par IA auxquels vous pouvez vous abonner aujourd’hui sont puissants parce qu’ils ont été entraînés sur les données de quelqu’un. Sur les données de qui ils ont été entraînés détermine ce qu’ils gèrent bien et ce qu’ils gèrent mal. Un moteur de traduction par IA généraliste, entraîné principalement sur du texte parallèle anglais-espagnol issu de documents de l’Union européenne, performera très différemment face à une conversation de service client à Hong Kong et face à un communiqué de presse à Madrid.

Cela signifie que pour chaque marché qui compte vraiment pour votre marque — pas seulement les trois ou quatre langues que votre fournisseur d’IA met en avant — vous devriez demander sur quelles données le système a été entraîné, comment ces données ont été collectées, et quels types de conversations restent mal gérés. La réponse surprend souvent les acheteurs.

Cela signifie aussi que les partenariats de localisation les plus défendables dans la prochaine phase de l’industrie seront ceux qui combinent expertise des workflows IA et accès profond à la main-d’œuvre humaine que l’IA continue de requérir. Pas parce que les linguistes humains traduisent mieux que l’IA dans la plupart des cas, mais parce que les gens qui peuvent enregistrer, annoter, juger et affiner des variétés linguistiques spécifiques sont les mêmes que ceux qui peuvent garantir que les sorties IA pour ces variétés sont réellement fiables au moment de l’expédition.

Où se situe Translia dans ce tableau

Nous soutenons les deux côtés de cette histoire.

D’un côté, nous opérons des workflows de traduction et de localisation pilotés par l’IA pour des marques mondiales et des partenaires BPO. Notre travail implique l’IA à toutes les étapes — pour la traduction initiale, l’application terminologique, la cohérence inter-fichiers, les contrôles qualité de premier passage. L’équipe humaine se concentre sur le jugement, l’alignement avec la marque, le registre culturel et les décisions que l’IA ne peut pas prendre seule de manière défendable. C’est la couche d’orchestration dont nous avons parlé dans notre article précédent.

De l’autre côté, nous fournissons des services de données linguistiques aux entreprises qui construisent la prochaine génération de systèmes d’IA vocale et de traduction. Nous travaillons avec des locuteurs natifs de dialectes spécifiques, gérons la production d’enregistrement et d’annotation, et livrons selon les spécifications strictes qu’exigent les pipelines d’entraînement IA en aval. C’est le travail qui rend l’IA future possible.

Ces deux côtés se connectent. La même expertise linguistique régionale qui nous permet de livrer des données code-switching cantonais-anglais propres et bien spécifiées pour l’entraînement IA est celle qui nous permet de livrer du contenu multilingue avec registre culturel et cohérence pour les opérations de marque mondiales. La même discipline opérationnelle qui gère l’orchestration des workflows IA est celle qui gère les transferts de lots vers les pipelines d’entraînement IA.

Ce que nous vendons, des deux côtés, c’est la couche entre l’IA et la réalité désordonnée de la langue humaine. L’IA génère. L’IA traduit. L’IA écoute. Mais les données qui font fonctionner l’IA et le jugement qui rend les sorties IA fiables proviennent toujours de personnes. Nous organisons cette partie.

La prochaine phase

Le récit selon lequel l’IA éliminera le travail linguistique humain est faux. Le récit selon lequel l’IA laissera le travail linguistique humain intact est également faux.

Ce qui se passe réellement est plus intéressant. La traduction de routine est en train d’être automatisée. Les contrôles qualité de routine sont en train d’être automatisés. L’application de la cohérence de routine est en train d’être automatisée. En même temps, la demande de travail linguistique humain spécialisé — enregistrement vocal de code-switching, données de langues peu dotées, jugement de registre culturel, alignement de voix de marque, évaluation des sorties IA — augmente fortement.

Les entreprises qui prospéreront dans la prochaine phase de la localisation seront celles qui peuvent opérer des deux côtés de cette ligne de partage. La maîtrise productive des outils IA, et l’accès opérationnel à la main-d’œuvre linguistique humaine que l’IA exige toujours.

C’est la position vers laquelle nous avons construit.


Découvrez comment nous structurons les workflows multilingues ou consultez les services qui soutiennent les marques opérant à travers les langues.