Collecte de parole, validation de transcription et évaluation pour les grands programmes d'IA — spécialisées dans les langues asiatiques et le code-switching.
Parole scriptée et spontanée, conversations à deux locuteurs et enregistrements dialectaux. Sourcing géré de locuteurs avec spécifications techniques strictes — taux d'échantillonnage, configuration de canaux, environnement d'enregistrement et démographie — validées par lot.
Cantonais-anglais, mandarin-anglais et autres scénarios de langues mêlées — la frontière actuelle de l'IA vocale, là où la plupart des fournisseurs ne peuvent sourcer un code-switching natif naturel à grande échelle.
Transcription et QA de validation multilingues à l'échelle de production, avec délai par lot et directives définies par le client — le point de contrôle qualité entre l'audio brut et des données d'entraînement utilisables.
Adéquation, fluidité, classement et LQA par des évaluateurs natifs — jugement humain sur la sortie du modèle, appliqué de façon cohérente et à grande échelle entre langues.
Import de lot, contrôle d'alignement audio-référence, confirmation du périmètre — les écarts sont signalés avant le début.
Une équipe de langue fixe prend les tâches sur notre plateforme managée — le contexte s'accumule au lieu de repartir de zéro.
Travail guidé par directives avec journalisation de l'effort par fichier — capacité prévisible, fichiers problématiques repérés tôt.
Relecture en deuxième passe contre un guide de variantes écrit, amendé après chaque cycle de correction.
Export en un clic avec rapport d'effort et suivi des boucles de correction — le même problème ne se reproduit pas.
Production managée avec un point de responsabilité unique — pas de crowdsourcing anonyme. Contributeurs sourcés et vérifiés, conformité stricte aux specs, confirmation qualité par lot.
Cantonais de Hong Kong, mandarin de Taïwan, mandarin simplifié et variantes régionales — plus coréen, japonais, philippin, turc et un ensemble croissant. Les variantes que les généralistes traitent comme des cas limites sont notre cœur.
Des équipes de langue fixes donnent un socle stable où le contexte s'accumule — tandis qu'un réseau de 10 000 linguistes absorbe les pics hebdomadaires sans recommencer l'onboarding. Une plateforme en self-service gère répartition, livraison et suivi QA.
Consentement documenté par contributeur et provenance suivie par lot — origine et licence auditables, pas de scraping web ouvert.
Certifié ISO 17100 et ISO 18587, avec une relecture structurée intégrée à la livraison plutôt qu'ajoutée après coup.
Nous accompagnons de grands fournisseurs de plateformes IA et de plus grandes sociétés de données comme partenaire de production sous-traité — un modèle d'entreprise à entreprise, pas une marketplace.
Passage d'un programme d'enregistrement de code-switching cantonais-anglais du pilote à des centaines de scripts en trois semaines pour un grand programme d'IA mondial — lots acceptés, qualité confirmée.
Exploitation d'une ligne de validation de transcription multilingue en continu sur des dizaines de variantes, avec livraisons hebdomadaires dans la chaîne d'approvisionnement de données d'un grand fournisseur de plateforme IA.
Les programmes clients sont confidentiels. Ceci décrit la forme du travail — production managée, specs strictes, qualité confirmée par lot — pas les parties impliquées.
Les langues asiatiques et leurs variantes — cantonais de Hong Kong, mandarin de Taïwan, mandarin simplifié et autres variantes chinoises — aux côtés du coréen, japonais, philippin, turc et d'un ensemble croissant. Nous traitons aussi le code-switching (cantonais-anglais, mandarin-anglais).
Chaque contributeur travaille sous consentement documenté, avec provenance suivie par contributeur et par lot. Société certifiée ISO 17100 et ISO 18587 en production managée, l'origine, la licence et le traitement sont auditables — pas issus d'un crowdsourcing anonyme.
Chaque lot passe par un contrôle d'alignement à l'intake. Les écarts — fichiers recoupés, scripts révisés — sont signalés avant le début de la production, pas découverts après des heures de validation contre le mauvais texte.
Parole et validation sont généralement facturées à l'heure-effort avec journalisation par fichier ; la collecte est devisée à l'unité livrable. Des équipes fixes assurent un socle stable et un réseau plus large absorbe les pics hebdomadaires sans recommencer l'onboarding.
Donnez-nous les langues, les specs et le volume — nous vous montrons comment la ligne managée livre.
Parler de votre projet de données →