过去18个月,AI语音系统跨越了一些连构建它的人都没预料到的门槛。
亚马逊重做了Alexa的语音识别系统。现在它跑在一个基于大语言模型架构的语音合成模型上,训练数据是数千小时的多说话人、多语言、多口音、多语速风格的录音。它能在一个句子中间切换语言。它能识别说话者的情感语调。说话者笑,它也跟着笑。
OpenAI发布了独立的ChatGPT Translate。谷歌推出TranslateGemma系列开源翻译模型。RWS和Cohere合作发布Language Weaver Pro。SAP公布了一套以AI翻译为核心、按风险分级语言规划、并整合企业流程的本地化战略。
每一项都是真实的能力跃迁。AI语音和翻译已经从研究演示走到了可以投入生产的系统。
但每一个这样的系统背后,都有一个不会出现在新闻稿里的故事。
每一个多语言AI背后的隐形劳动力
模型不是凭空训练出来的。它们用的是语音数据。真实的语音。由真实的人,在真实的语言里,在真实的环境中,用真实的对话录出来的。
而一旦你开始在行业里的这个环节工作,有一件事会变得非常明显:AI越接近人类语言的边缘,对数据的要求就越具体、越严苛。
六年前,训练一个基础的英语语音识别系统,需要几小时的录音棚级清洁录音。今天,要训练一个能处理香港客服对话的系统——说话人可能在一句话里在粤语和英语之间切换三次,在有背景噪音的办公室环境,带有既不同于内地普通话、也不同于标准粤语的本地发音——需要的是完全不同种类的数据。
这种数据在公开互联网上不存在。无法从YouTube爬取。也无法可靠地用现在最新的TTS模型合成出来——用合成数据训练合成数据,会在长尾上导致模型崩溃。
它必须被录出来。由真正这么说话的人。在正确的环境里。按严格的技术规范。带有明确的同意书和数据来源凭证。
为什么code-switching是当前的前沿
在2026年的AI语音研究中,”code-switching”(语码切换)——即双语者在一句话之内交替使用两种或多种语言——是最活跃的方向之一。
它在现实世界里无处不在。香港的办公室白领讲一个项目,会在一句话里来回切换粤语和英语好几次。新加坡人点餐,根据桌上的人在英语、马来语、普通话和福建话之间穿梭。迈阿密的西英双语职场人,根据所说内容的情感语域在两种语言间跳跃。
几十年来,自动语音识别系统对code-switching的处理是糟糕的,或者干脆不处理。系统训练在单语数据上,码切语句把它们打断了。
2026年这件事正在变化。新加坡南洋理工大学的研究人员在发表关于TTS增强的code-switching ASR的论文。Hugging Face发布了FineTranslations——一个万亿token的多语言平行数据集。微软的LINGUA项目资助了11个欧洲低资源语言数据集项目。全球研究社区正在形成共识:AI语音能力的下一次跃迁,要通过code-switching和低资源语言数据来实现。
但要让这些研究从论文变成像Alexa、Google Assistant、或者企业级呼叫中心自动化这样的可交付产品,必须有人去录真实的语音。母语者、双语流利、做真实的双角色对话、特定方言、特定环境、达到特定的质量标准。
这正是我们做的工作之一。
一线实际操作长什么样
为AI训练录制语音数据,不是大多数人想象的那样。它不是随手用手机录音。它是一个规格严苛的生产流程。
我们交付的一个典型批次包含几十个为双说话人对话设计的脚本——一个人扮演客户、一个人扮演服务座席——附带对采样率、音频通道、录音环境、说话人性别比例、轮次结构的具体规定。说话人必须是目标方言的母语者。英语要流利到能自然地在两种语言之间切换,不能听起来像在念稿子。环境必须产出干净的音频,带有合适的背景特征。
我们筛选说话人。我们对他们进行脚本结构和对话风格的培训。我们在录音过程中监督,确保技术规范被满足。我们处理元数据——说话人ID、批次号、文件命名、声道分离——下游pipeline依赖这些数据的精确性。我们按时交付,因为这些批次嵌套在更大的AI训练时间线里,任何延误都会向后传导。
这些工作中没有一项是光鲜的。每一项都需要AI还供不上的判断力。
被训练的AI将来某一天可能能流利地处理香港的客服电话。但要走到那一步,必须先有真实的人去示范那种流利。
对出海品牌的两层含义
这里有两个观察,一个对语言行业内部,一个更广。
对语言行业,所谓”AI正在取代翻译员”的叙事抓错了重点。是的,AI在接管常规翻译。但同一时间,AI正在创造对高度具体的人类语言工作——录音、标注、评估、判断——的巨大需求,这些工作十年前根本不存在。语言服务的前沿正在从”生产翻译”转向”生产让AI翻译成为可能的数据”。
对出海品牌,含义更微妙。今天你能订阅到的AI翻译工具之所以强大,是因为它们用了某些人的数据训练出来的。用了谁的数据,决定了它处理得好的是什么、处理得差的是什么。一个主要用欧盟文件的英语-西班牙语平行文本训练出来的通用AI翻译引擎,面对马德里的新闻稿和面对香港的客服对话时,表现会完全不同。
这意味着:对你的品牌真正在意的每一个市场——不只是你的AI供应商在宣传材料里列出来的前三四种语言——你都应该问:这个系统是用什么数据训练的?数据是怎么采集的?哪些对话场景到现在还处理得不好?答案常常让采购方意外。
这也意味着:下一阶段最有竞争力的本地化合作关系,将属于那些既懂AI工作流,又能触达AI仍然依赖的人类语言劳动力的伙伴。不是因为人类语言学家在大多数场景下翻译得比AI更好,而是因为——能录音、标注、评判、打磨特定语言变体的那些人,就是能确保AI在那些变体上输出值得信任的那些人。
Translia在这个图景中的位置
我们同时支撑这两端。
一端,我们为全球品牌和BPO合作伙伴运营AI驱动的翻译和本地化工作流。我们的工作中AI贯穿始终——用于初翻、术语强制、跨文件一致性、首轮质量检查。我们的人员聚焦在判断、品牌对齐、文化语域,以及AI无法独立做出可辩护决策的那一类工作。这是我们上一篇文章谈的”编排层”。
另一端,我们为正在建设下一代AI语音和翻译系统的公司提供语言数据服务。我们和特定方言的母语者合作,管理录音和标注的生产流程,按下游AI训练pipeline要求的严格规格交付。这是让未来的AI得以成立的工作。
两端是相连的。同样的区域语言能力——能让我们交付干净规范的粤英code-switching数据给AI训练用——也是让我们能为全球品牌运营提供保持文化语域和一致性的多语言内容的能力。同样的运营纪律——既能处理AI工作流的编排,也能处理交付给AI训练pipeline的批次交接。
我们卖的,两端都是:AI和真实人类语言之间的那一层。AI生成。AI翻译。AI听。但让AI能工作的数据,以及让AI输出值得信赖的判断,仍然来自人。我们组织那一部分。
下一阶段
“AI将消灭人类语言工作”的叙事是错的。”AI不会影响人类语言工作”的叙事也是错的。
实际正在发生的事情更有意思。常规翻译正在被自动化。常规质量检查正在被自动化。常规一致性强制正在被自动化。同时,对专业人类语言工作的需求——code-switching语音录制、低资源语言数据、文化语域判断、品牌语气对齐、AI输出评估——在大幅上升。
下一阶段在本地化领域跑赢的公司,将是那些能在这道分界线两侧同时运营的——既有AI工具的生产熟练度,也有AI仍然需要的人类语言劳动力的运营触达。
这正是我们一直在搭建的位置。
了解我们如何构建多语言工作流,或查看支持品牌跨语言运营的服务。