Question 1

你们的 AI 数据覆盖哪些语言？

Accepted Answer

我们专注亚洲语言及其地区变体——香港粤语、台湾国语、简体普通话及其他中文变体——同时覆盖韩语、日语、菲律宾语、土耳其语等不断增加的语种。我们也处理语码转换场景，如粤英混说、普英混说。

Question 2

你们如何保证数据来源与知情同意？

Accepted Answer

每位贡献者都在书面知情同意下参与，来源按贡献者和批次追溯。我们是通过 ISO 17100 与 ISO 18587 认证、采用受管生产的公司，数据来源、授权与处理均可审计，而非从开放众包匿名获取。

Question 3

你们能满足严格的技术规格吗？

Accepted Answer

能。语音采集遵循严格规格——采样率、声道配置、录制环境、说话人画像和脚本设计——每批次交付前验证。转录与评测按客户定义的准则执行，以生产级规模做 QA。

Question 4

你们可以作为大型数据公司的分包方吗？

Accepted Answer

可以。我们以公司对公司的方式，为领先的 AI 平台供应商和更大的数据公司提供受管产能，交付通用供应商难以获取的亚洲语言和语码转换音频。

Question 5

这和众包数据平台有什么不同？

Accepted Answer

我们做的是有单一责任方的受管生产，而不是匿名众包——经筛选的母语者、严格的规格合规、书面知情同意与来源追溯、按批次的质量确认。这在语码转换和低资源亚洲语言变体这类最难的场景里尤其关键。

面向 AI 的语言数据——
由母语者构建，以生产级规模交付

在训练需要亚洲语言数据的模型？