jahtAI 转录校验 · 新手操作手册
简体中文 zh-CN · 第一次使用必读(Batch14)· v2 更新:繁简字 / 标点
保密:不外传、不截图、不提客户名(对外只说「语言数据项目」)。内容仅本人使用。
一、开始之前
拿到的是一个网页链接,打开就能用,无需登录、无需安装。链接有效期约 48 小时,尽快做。
这次是【校验】已有的(AI)转录稿,不是从零听写——核对、修改、加标签、对齐时间。
一个链接里有 5 个音频,逐个完成、逐个提交。
另有官方【在线速查】(README 里的链接),是最权威的规则表,拿不准时随时对照。
质量很重要:交付后经人工 + 自动 QC 检查,问题多的任务会被【退回返工(rework)】,请仔细做。
不能用任何 AI/机器转录工具(ChatGPT、Whisper、讯飞等),必须本人完成。
| ⚠ 提示:zh-CN 不需要做英文转写(transliteration)。首页提到的「Transliteration required」只针对日语/印地语/韩语/泰语,简体中文无需理会。 |
本次具体要做这 5 件事(客户要求)
1. 校对并修改已有的转录文字,使其与音频完全一致。
2. 加上对应的标注标签(语言/缩写/重叠/噪音等)。
3. 检查并订正每段的 metadata(说话人、角色、语言等信息)。
4. 需要时调整每段时间,使其对齐波形的起止。
5. 英文转写——zh-CN 不涉及,跳过。
打开链接后的首页大致是这样(含任务说明):
▲ 任务首页:注明本批音频数、链接有效期、转写适用语言、操作要点
二、整体流程(5 步)
1. 打开链接,读完首页提示,点「Begin / 开始」。
2. 逐个 segment(语音段)校验:听音频 → 对照文字 → 修改 → 加标签 → 查 metadata → 对齐时间。
3. 一个音频的所有段做完、检查无误 → 点「Submit」提交这个文件,进入下一个。
4. 用顶部「File X of 5」依次做完 5 个音频,每个都各自 Submit。
5. 5 个全部完成后,会得到 completion code(完成码);回传 checklist 并报工时。
| ⚠ 最重要:「一个音频整段做完整」才 Submit,别做一半就提交;但不需要等 5 个全做完——每做完一个就提交、进下一个。 |
三、认识界面(5 个区域)
▲ 工作界面:①顶部栏 ②波形区 ③播放控制 ④段落列表(左) ⑤段落编辑区(右)
| 区域 | 位置 | 作用 |
|---|---|---|
| ① 顶部栏 | 最上方 | 左=当前音频文件名;右=「File X of 5」切换音频、⚙设置、Submit 按钮 |
| ② 波形区 | 左上 | 蓝色=Agent(客服)在上,黄色=Customer(客户)在下;每段有编号;可缩放(Fit) |
| ③ 播放控制 | 波形下方 | ▶播放、↺重播、⟳循环、播放速度、音量、⌨快捷键 |
| ④ 段落列表 | 左侧 | 所有 segment;绿勾=已确认;显示时间/时长/说话人/角色/文字预览;↑↓切换;Auto-play 开关 |
| ⑤ 段落编辑区 | 右侧 | 编辑当前段:时间(Start/End)、类型、语言、说话人、标签按钮、Transcript 文本框 |
四、一个 Segment 怎么校验(核心)
1. 在左侧④列表里点一段——会自动播放这段音频(Auto-play 打开时)。
2. 边听边看右下角「Transcript」框里的文字,核对是否和说的一字一致。
3. 不一致就直接在 Transcript 框里改:逐字照说的打,按第六节规范(数字写中文、英文加标签等)。
4. 检查并订正这段的 metadata:Primary type(应为 Speech)、Language(zh_CN)、Speaker 说话人ID 与角色(Agent/Customer)、性别/年龄、Loudness 等是否正确。
5. 给需要的词/声音加标签(见第五节)。
6. 看 Start(s)/End(s) 是否正好框住这段话的波形(见第七节)。
7. 确认无误后这段会显示绿勾 ✓;用 ↓ 或点列表下一段,继续。
五、怎么加标签(对照右侧按钮)
先在 Transcript 里【选中】要标的文字,再点对应按钮:
| 要标的情况 | 怎么操作 | 结果/例子 |
|---|---|---|
| 英文词或英文句 | 选中英文 → 点「<lang:English>」(或快捷键) | <lang:English>reinstate</lang:English> |
| 逐字母念的缩写(SMS/API/CEO) | 选中 → 点「<initial>」 | <initial>SMS</initial> |
| 两人同时说、都听得清 | 选中重叠部分 → 点「<overlap>」 | <overlap>对对对</overlap> |
| 人声噪音(咳嗽/笑/呼吸) | 光标放到位置 → 「Vocal ▾」选标签 | 我[cough]当然 |
| 其他声音(电话铃/音乐/键音) | 「Sounds ▾」选标签 | [ring] [music] [click] |
| 静音/别人插话 | 「Silence/Other ▾」选 | [no-speech] [other-speech] |
| 标错想重来 | 选中 → 「Clear tags」(文字保留) | — |
| 整段纯噪音/无人说话 | 勾选「No transcription (non-speech segment)」 | 该段不填文字 |
| ⚠ 提示:标签要原样、成对:<lang:English> 必须有 </lang:English> 收尾;噪音标签 [ring] 不要插在一个词中间,放到那个词前面。 |
六、简体中文规范速查(最容易错)
| 规范 | 要求 | 例子 |
|---|---|---|
| 繁简字 | 统一用【简体字】;AI 稿里的繁体字要改成简体 | 臺灣→台湾、發財→发财 |
| 数字/算式 | 写成中文 | 12→十二;1+1=2→一加一等于二 |
| 英文/外语 | 保留原文 + 加 <lang:English>,不要音译 | 说 Apple→<lang:English>Apple</lang:English>,不写「苹果」 |
| 标点 | 中文部分用【中文全角标点】(,。!?:;),按大陆教育部标准;只有整段英文 <lang:English> 内才用英文标点 | 中文句的 , . ? 要改成 ,。? |
| 同音字 | 按语境选对 | 法律权利→权利;政府权力→权力;病例/病历 |
| 方言发音 | 写标准字 | 火车(不写「佛车」) |
| 用字/译名 | 用大陆标准 | 莫桑比克(不是莫三比克) |
| 逐字记录 | 说错、口语、重复都照打 | 他那个那个那个项目已经开开开始了 |
| 词中停顿 | 用 ~ | 一件重~要的事 |
| 听不清 | (()) 前后留空格 | 你可以播放 (()) 那首歌吗 |
非人声标签(只能用这些):
人声类:[breath] [cough] [cry] [laugh] [lipsmack]
其他声音:[applause] [beep] [click] [dtmf] [ring] [sta] [noise] [music]
静音:[no-speech](≥1 秒停顿/静音)。同一噪音连续出现只标一次。
七、调整时间、对齐波形
看右侧 Start(s)、End(s) 两个数字,应正好框住这段说话的波形。
可直接改这两个数字,或在波形上拖动该段左右边缘。
不要切掉开头/结尾的字,也不要把别人的话框进来。每段尽量 <15 秒。
| ⚠ 提示:系统会「高层检查波形」(邮件原文 checking waveforms):确认各段不重叠、没有被奇怪截断、起止对齐。 |
八、切换音频 & 提交(重点,先看这里)
每做完一个音频文件就要 Submit,才能进入下一个——这是正常流程,不是做错。
1. 做完当前音频的所有 segment,检查全部变绿、没有黄色警告(QC 会拦)。
2. 点右上「Submit」提交这个文件 → 自动推进/解锁下一个音频。
3. 顶部「File X of 5」会前进;后面标「Not reached yet」的,要等前面提交后才轮到。
4. 提交后、在最终推进前,仍可重新打开该文件修改(首页原话:can re-open and edit until you advance)。
5. 5 个文件依次做完并各自 Submit,全部完成后会得到 completion code。
| ⚠ 关于 Submit:客户邮件原话:Do not click Submit until a task is fully completed。这里的 task 指【一个音频文件】——一个文件做完整再 Submit,不是半成品提交,也不必等 5 个全做完。 |
| ⚠ QC:QC 已升级:会高亮违反重要规则的段,错误没清掉【可能无法提交】。绿色校验全过、黄色警告清掉,再 Submit。 |
九、checklist 怎么填、怎么交
打开「Code-switching - Transcription Checklist.xlsx」。
每个 Task(对应一个音频)逐项确认,达标的改成 True / 打勾;File Names 表填音频文件名。
做完一个链接就回传,命名:Checklist_Batch14_链接X_你的名字.xlsx
同时告诉负责人你实际用了几小时。
十、常见问题 & 易错点
| 问题/易错 | 怎么办 |
|---|---|
| 碰到繁体字怎么办? | 改成简体字(本项目是简体中文 zh-CN) |
| 中文句用了英文标点(, . ?)? | 改成中文标点(,。?);只有整段英文里才保留英文标点 |
| 选不了第二个音频? | 正常——先把当前音频做完并 Submit,下一个才解锁 |
| Not reached yet 是锁了吗? | 不是锁,是还没轮到;提交前一个后即可进入 |
| 数字写成了 12? | 要写「十二」 |
| 英文写成了音译(哀凤)? | 保留英文原文并加 <lang:English> 标签 |
| 帮说话人改通顺了? | 不可以,要逐字照说的打 |
| (()) 没留空格? | 前后各留一个空格 |
| 噪音标签插在词中间? | 放到那个词前面 |
| 忘了查 metadata? | 每段都要核对说话人/角色/语言 |
| 第一个音频做完先做什么? | 发负责人确认格式没问题,再继续后面的 |
十一、提交前自查清单(每个音频都查)
☐ 字用简体、中文部分用中文标点(整段英文除外)
☐ 每段 <15 秒,切分/类型正确
☐ 逐字、与音频一致,无漏字加字
☐ 数字、算式写成中文
☐ 英文/外语保留原文 + 加 <lang:English>
☐ 同音字按语境选对
☐ 大陆用字和译名
☐ 缩写/语气词/噪音标签按规范
☐ metadata(说话人/角色/语言)已核对
☐ 标记格式对:(()) 空格、<lang> 成对、[标签] 不插词中
☐ 波形对齐、无重叠/截断
☐ 该音频全部绿色、无黄色警告 → 再 Submit
快捷键(以工具内提示为准)
| 按键 | 作用 |
|---|---|
| Ctrl+Shift+L / F / O / I | 给选中的词加 语言 / 外语 / 重叠 / 初始缩写 标签 |
| Ctrl+Shift+1–5 | 插入常用非语音标签 |
| Ctrl + Z | 撤销 |
| (部分版本)Alt+P / Alt+R | 播放暂停 / 重播本段 |
有任何不确定,先做一小段发负责人确认;查字用新华字典 https://zd.hwxnet.com/ ,不要凭感觉。
十二、补充:英文连读、缩写与标点细则
① 连续英文怎么标
连续的英文(含中间的英文标点)用【一对】<lang:English> 包住,不要逐词拆;只有夹了中文词、或夹了逐字母念的缩写时才断开。
| 情况 | 标法 |
|---|---|
| 连续英文(含标点) | 他说 <lang:English>well, you know</lang:English> 就走了 |
| 缩写+普通词连读(IP address) | <lang:English><initial>IP</initial> address</lang:English> |
| 中间夹中文 | 我想 <lang:English>confirm</lang:English> 一下 <lang:English>deadline</lang:English> |
| 缩写中间夹中文 | <lang:English><initial>URL</initial></lang:English> 点 <lang:English>Amazon</lang:English> |
| ⚠ 提示:IP address:一对 <lang:English> 包住整段,IP(逐字母念)套 <initial>,address(当词念)不套。口诀:连读英文包一对标签;里面逐字母缩写各自加 <initial>,普通词不加。 |
② 标点:标签内 vs 标签外
标签【里面】的英文用英文半角标点(, . ' -);标签【外面】的中文用中文全角标点(,。!?)。
半句英文时看标点两边:两边都是英文→英文半角(放标签内);挨着中文或在句末→中文全角(放标签外)。
| 例子 | 说明 |
|---|---|
| 他说 <lang:English>well, you know</lang:English> 这样不行 | well,you know 间逗号两边都英文→英文半角(标签内) |
| 他说 <lang:English>well</lang:English>,然后走了。 | 逗号挨中文、句号在句末→中文全角(标签外) |
③ 标点 · 完整例子(简中)
| 听到(含英文内标点) | 他说 well, you know, 这样不行. |
|---|---|
| 正确标注 | 他说 <lang:English>well, you know</lang:English>,这样不行。 |
| 要点 | 英文内的 , 是半角(在标签内保留);中文部分的 ,。 用全角(在标签外) |
④ 字母+数字的编号/标识符(保单号、邮箱、型号等)
这类整体用英文读时:字母逐字母念→写【大写 + 字母间空格】、不加 <initial>;数字按音频读法拼成英文(逐位 / 整数)。整段用一对 <lang:English> 包住。
| 听到(英文读) | 正确标注 |
|---|---|
| 保单号 hn20240617 | <lang:English>H N two zero two four zero six one seven</lang:English> |
| IBM(有意义的实体缩写、逐字母念) | <lang:English><initial>IBM</initial></lang:English> |
| 化学式 H2O | <lang:English>H two O</lang:English> |
| ⚠ 提示:<initial> 只给【有意义的缩写/实体名】且逐字母念的(WHO、IBM、URL)。保单号前缀、邮箱、拼读的字母串 → 用【大写+空格】、<b>不加</b> initial。数字怎么读必须听音频:英文读→拼英文(逐位/整数),中文读→写中文。 |
⑤ 分段交界处:重复的词怎么办
一句话超过 15 秒被系统切成两段时,交界处可能有一个词在两段都出现。
原则:同一个词【只归一段】,不要两段都写——两段都写 = 重复 = 增词,QC 会扣分。
判断那个词主要在哪一段(发音落在哪段时间里),就只在那一段的文字框里写它,另一段把它删掉。
不要标 (()) 听不清——那个词其实是听得清的,(()) 只用于真听不清的地方。
要调段的时间边界,用右侧 Start/End 数字框输入;调不了就只改文字,先保证两段拼起来不重复、不漏字。
jahtAI 转录校验 · 新手操作手册
韩语 ko-KR · 第一次使用必读(含转写 Transliteration 详解)
保密:不外传、不截图、不提客户名(对外只说「语言数据项目」)。内容仅本人使用。
一、开始之前
拿到的是一个网页链接,打开就能用,无需登录、无需安装。链接有效期约 48 小时,尽快做。
这次是【校验】已有的(AI)转录稿,不是从零听写——核对、修改、加标签、对齐时间。
一个链接里有几个音频(约 1–5 个),逐个完成、逐个提交。
不能用任何 AI/机器转录工具(ChatGPT、Whisper 等),必须本人完成。
| ⚠ 韩语重点:韩语(ko-KR)【必须做转写 Transliteration】——每个 segment 要填两个字段:Transcription(转录) + Transliteration(转写)。转写字段不填会标红、无法提交。详见第六节。 |
二、整体流程(5 步)
1. 打开链接,读完首页提示,点「Begin / 开始」。
2. 逐个 segment 校验:听音频 → 核对/修改转录 → 加标签 → 填转写字段 → 查 metadata → 对齐时间。
3. 一个音频的所有段做完、检查无误 → 点「Submit」提交这个文件,进入下一个。
4. 用顶部「File X of N」依次做完所有音频,每个都各自 Submit。
5. 全部完成后回传 checklist 并报工时。
| ⚠ 最重要:「一个音频整段做完整」才 Submit;每做完一个就提交、进下一个,不必等全部做完。 |
打开链接后的首页大致是这样:
▲ 任务首页:本批音频数、链接有效期、转写适用语言(含韩语)、操作要点
三、认识界面(5 个区域)
▲ 工作界面:①顶部栏 ②波形区 ③播放控制 ④段落列表(左) ⑤段落编辑区(右)
| 区域 | 位置 | 作用 |
|---|---|---|
| ① 顶部栏 | 最上方 | 左=当前音频文件名;右=「File X of N」切换音频、⚙设置、Submit 按钮 |
| ② 波形区 | 左上 | 蓝=Agent 在上,黄=Customer 在下;每段有编号;可缩放(Fit) |
| ③ 播放控制 | 波形下方 | ▶播放、↺重播、⟳循环、播放速度、音量、⌨快捷键 |
| ④ 段落列表 | 左侧 | 所有 segment;绿勾=已确认;显示时间/时长/说话人/角色/文字预览 |
| ⑤ 段落编辑区 | 右侧 | 编辑当前段:时间、类型、语言、说话人、标签、Transcript(转录) + Transliteration(转写) 两个文本框 |
四、一个 Segment 怎么校验(核心)
1. 在左侧④列表点一段——自动播放该段音频。
2. 边听边看「Transcription(转录)」框文字,核对是否和说的一字一致;不一致就改(按第七节韩语规范)。
3. 给需要的词/声音加标签(见第五节),英文词用 <lang:English> 包起来。
4. 【韩语必做】填「Transliteration(转写)」框——把英文按发音写成谚文(见第六节)。两个框都要填!
5. 检查 metadata:Primary type(Speech)、Language(ko_KR)、Speaker 说话人/角色、性别年龄、Loudness。
6. 看 Start(s)/End(s) 是否框住这段波形(第八节)。
7. 确认无误显示绿勾 ✓;继续下一段。
五、怎么加标签
先在文本里【选中】要标的内容,再点对应按钮:
| 情况 | 怎么标 | 例(转录) |
|---|---|---|
| 英文词/英文句 | 选中 → <lang:English> | 나 오늘 <lang:English>meeting</lang:English> 있어 |
| 逐字母念的缩写(WHO/IBM/EU) | 选中 → <initial>,外面再套 <lang:English> | <lang:English><initial>WHO</initial></lang:English> |
| 当单词念的缩写(NASA/JSON/NATO) | 只用 <lang:English>,不加 initial,大写无空格 | <lang:English>NASA</lang:English>에서 |
| 拼读字母/化学式/邮箱(C O dot K R, H two O) | <lang:English>,字母间空格,不加 initial | <lang:English>H two O</lang:English> |
| 两人同时说且都清楚 | 选中重叠部分 → <overlap> | <overlap>맞아요</overlap> |
| 人声噪音(咳嗽/笑/呼吸) | Vocal ▾ 选标签 | [cough] [laugh] [breath] |
| 其他声音(铃声/音乐) | Sounds ▾ 选标签 | [ring] [music] |
| 静音/别人插话 | Silence/Other ▾ | [no-speech] [other-speech] |
| 整段无人说话/纯噪音 | 勾选 No transcription | 该段不填 |
| ⚠ 提示:缩写三分法是韩语易错点:逐字母念→<initial>(套 lang);当词念→只 lang 大写;拼读字母/化学/邮箱→lang 且字母间空格、不加 initial。 |
六、转写 Transliteration —— 韩语必做,重点!
什么是转写:把英文按【发音】写成谚文(不是翻译)。例:meeting → 미팅(不是「会议」)。
工具里有两个框:上面 Transcription(转录),下面 Transliteration(转写)。两个都必须填——转写空着会标红、无法提交。
怎么填转写框:把转录内容复制过来,再把 <lang:English> 里【能音译的英文词】换成谚文;其余(韩语本身、整句英文、字母缩写)原样保留。标签 <lang:English> 两个框都要保留、成对。
4 种情况:
| 情况 | Transcription(转录) | Transliteration(转写) |
|---|---|---|
| ① 全韩语,无英文 | 나 오늘 일했어요. | 나 오늘 일했어요. (完全相同,复制即可) |
| ② 英文单词/短语 | 나 오늘 <lang:English>meeting</lang:English> 있어. | 나 오늘 <lang:English>미팅</lang:English> 있어. (英文→谚文音译) |
| ③ 整句英文(难音译) | <lang:English>I was so exhausted.</lang:English> 그래도 좋았어. | <lang:English>I was so exhausted.</lang:English> 그래도 좋았어. (整句英文保留不变) |
| ④ 混合 | 이 <lang:English>project</lang:English> 는… <lang:English>I'm not sure.</lang:English> | 이 <lang:English>프로젝트</lang:English> 는… <lang:English>I'm not sure.</lang:English> (短词音译,整句保留) |
常见英文词音译参考:meeting→미팅, project→프로젝트, deadline→데드라인, team→팀, computer→컴퓨터, email→이메일, service→서비스, system→시스템。
| ⚠ 提示:【不音译】的内容,转写框里保持和转录一样(拉丁字母):字母缩写(WHO/IBM)、当词念的缩写(NASA/JSON)、拼读字母(C O dot K R)、化学式(H two O)、以及难以音译的整句英文。 |
七、韩语规范速查(最容易错)
| 项 | 要求 | 例 |
|---|---|---|
| 只用谚文 | 转录只用谚文(Hangul)+基本标点,不用阿拉伯数字、不用 $ + @ 等符号 | |
| 数字 | 写谚文,按说话人读法 | 5→오;306→삼백육 或 삼공육 |
| 货币/算式 | 写谚文 | \100→백 원;6+6=12→육 더하기 육은 십이 |
| 空格 | 词间空格;姓名不分写(김미영);「씨」前空格(전원우 씨);大数 만/억/조 后空格 | |
| 拼写 | 用标准正字法;误读、方言都写【标准形】 | 쥬스→주스;먹구→먹고 |
| 非标准用法 | 逐字照打,不要纠正语法 | |
| 当词念缩写 | <lang:English>大写</lang:English>,不加 initial | NASA, JSON |
| 逐字母念缩写 | <lang:English><initial>…</initial></lang:English> | WHO, IBM, URL |
| 拼读字母/化学/邮箱 | <lang:English>,字母间空格,不加 initial | H two O;C O dot K R |
| 语气词 | 写谚文,不加标记 | 우와 / 헐 / 아이고 / 흠 / 음 |
| 标点 | 句号、问号、感叹号、逗号 | |
| 词中停顿/听不清/噪音 | ~ / (()) / [标签] | 同其他语言 |
非人声标签(只能用这些):[breath] [cough] [cry] [laugh] [lipsmack];[applause] [beep] [click] [dtmf] [ring] [sta] [noise] [music];[no-speech]。
拿不准查:国立国语院 https://www.korean.go.kr/ ;釜山大拼写检查 http://speller.cs.pusan.ac.kr/
八、调整时间、对齐波形
看右侧 Start(s)、End(s),应正好框住这段说话的波形。
可直接改数字,或在波形上拖动该段左右边缘;不要切掉首尾、不要框入别人的话。
| ⚠ 提示:系统会高层检查波形:确认各段不重叠、没有奇怪截断、起止对齐。 |
九、切换音频 & 提交
1. 做完当前音频所有段,检查全绿、无黄色警告(含转写都已填,否则标红)。
2. 点「Submit」提交这个文件 → 自动进入下一个。
3. 后面音频标「Not reached yet」只是还没轮到,提交前一个后即可进入。
4. 提交后、推进前仍可重开修改。
| ⚠ 关于 Submit:客户邮件:Do not click Submit until a task is fully completed——task 指一个音频文件;做完整再提交,不必等全部。 |
| ⚠ QC:QC 会拦:转写没填/标签错/警告没清,可能无法提交。全绿再 Submit。 |
十、checklist & 常见问题
每个链接做完,填「Code-switching - Transcription Checklist.xlsx」(每个 Task 逐项打勾 True,File Names 填文件名),回传 + 报工时。
命名:Checklist_Batch13(或Batch40)_链接X_你的名字.xlsx
| 问题/易错 | 怎么办 |
|---|---|
| 转写框忘了填? | 会标红、无法提交——每段两个框都要填 |
| 全韩语段转写填什么? | 和转录完全一样,复制过去 |
| 整句英文要音译吗? | 不用,原样保留 |
| WHO/IBM 转写要变谚文吗? | 不变,保持拉丁字母 |
| 数字写成 5 了? | 写谚文「오」 |
| 误读/方言照原音写了? | 写标准形(주스/먹고) |
| 第一个音频做完先做什么? | 发负责人确认格式没问题再继续 |
十一、提交前自查(每个音频都查)
☐ 只用谚文,无阿拉伯数字/特殊符号
☐ 数字、货币、算式写谚文
☐ 空格规则正确(姓名/씨/大数)
☐ 误读、方言写标准形
☐ 英文加 <lang:English>;缩写区分 initial/lang/字母空格
☐ 【转写框已填】:韩语段=复制;英文词=谚文;整句/缩写=保留
☐ 语气词写谚文
☐ metadata(说话人/角色/语言)已核对
☐ 波形对齐、无重叠/截断
☐ 全绿、无黄色警告 → 再 Submit
有任何不确定,先做一小段发负责人确认;不要凭感觉。
十二、补充:英文连读、缩写与标点
① 连续英文 & 缩写连读
连续的英文(含中间英文标点)用【一对】<lang:English> 包住;只有夹了韩语词、或夹了逐字母念的缩写时才断开。
| 情况 | 转录(Transcription) | 转写(Transliteration) |
|---|---|---|
| 缩写+普通词连读(IP address) | <lang:English><initial>IP</initial> address</lang:English> | <lang:English><initial>IP</initial> 어드레스</lang:English> |
| 连续英文 | 나 <lang:English>good morning</lang:English> 했어 | 나 <lang:English>굿모닝</lang:English> 했어 |
| 缩写夹韩语(URL 점 Amazon) | <lang:English><initial>URL</initial></lang:English> 점 <lang:English>Amazon</lang:English> | <lang:English><initial>URL</initial></lang:English> 점 <lang:English>아마존</lang:English> |
| ⚠ 提示:IP address:一对 <lang:English> 包住,IP(逐字母念)套 <initial>、保留拉丁;address(当词念)音译成谚文(어드레스)。缩写(IP/URL/WHO)在转写字段【保持拉丁、不音译】;普通词才音译。 |
② 标点
标签【里面】的英文用英文标点(, . ' -);标签外按韩语规范的标点。连续英文中间的英文标点(如 well, you know 的逗号)放标签内、保持英文半角。
④ 字母+数字的编号/标识符(保单号、邮箱、型号等)
这类整体用英文读时:字母逐字母念→写【大写 + 字母间空格】、不加 <initial>;数字按音频读法拼成英文(逐位 / 整数)。整段用一对 <lang:English> 包住。
| 听到(英文读) | 转录 | 转写 |
|---|---|---|
| 保单号 hn20240617 | <lang:English>H N two zero two four zero six one seven</lang:English> | 同左(字母/数字保持拉丁,不音译) |
| IBM(实体缩写) | <lang:English><initial>IBM</initial></lang:English> | 同左(保持拉丁) |
| ⚠ 提示:<initial> 只给【有意义的缩写/实体名】且逐字母念的(WHO、IBM、URL)。保单号前缀、邮箱、拼读的字母串 → 用【大写+空格】、<b>不加</b> initial。数字怎么读必须听音频:英文读→拼英文(逐位/整数),中文读→写中文。 |
⑤ 分段交界处:重复的词怎么办
一句话超过 15 秒被系统切成两段时,交界处可能有一个词在两段都出现。
原则:同一个词【只归一段】,不要两段都写——两段都写 = 重复 = 增词,QC 会扣分。
判断那个词主要在哪一段(发音落在哪段时间里),就只在那一段的文字框里写它,另一段把它删掉。
不要标 (()) 听不清——那个词其实是听得清的,(()) 只用于真听不清的地方。
要调段的时间边界,用右侧 Start/End 数字框输入;调不了就只改文字,先保证两段拼起来不重复、不漏字。
jahtAI 转录校验 · 操作要点(菲律宾语 tl-PH)
通用版 · tl-PH 不需转写 · 语言专属规范待客户补
保密:不外传、不截图、不提客户名。内容仅本人使用。
| ⚠ 菲律宾语说明:tl-PH【不需要】做转写。语言专属细则(数字/标点/拼写)等客户规范到位后再补;先按本通用规则 + 官方在线速查开工,规范到了校准即可。 |
一、开始之前
打开网页链接即可用,无需登录安装;链接约 48 小时有效。
这次是【校验】已有的(AI)转录稿,不是从零听写——核对、修改、加标签、对齐时间。
一个链接含几个音频,逐个完成、逐个 Submit。
不能用任何 AI/机器转录工具,必须本人完成。
二、整体流程
1. 打开链接,读页面提示,点 Begin。
2. 逐个 segment:听音频 → 核对/改文字 → 加标签 → 查 metadata → 对齐时间。
3. 一个音频做完→点 Submit→进入下一个。全部做完回传 checklist + 报工时。
| ⚠ 最重要:「一个音频整段做完整」才 Submit;每做完一个就提交、进下一个。 |
三、认识界面
| 区域 | 作用 |
|---|---|
| 顶部栏 | 当前文件名;右侧 File X of N 切换音频、Submit |
| 波形区 | 蓝=Agent 上、黄=Customer 下;可缩放 |
| 段落列表(左) | 所有 segment;绿勾=已确认 |
| 段落编辑区(右) | 时间、类型、语言、说话人、标签、Transcript 文本框 |
四、加标签(通用,所有语言一样)
| 情况 | 怎么标 | 例 |
|---|---|---|
| 英文词/句 | 选中 → <lang:English> | <lang:English>meeting</lang:English> |
| 逐字母念的缩写 | <lang:English><initial>…</initial></lang:English> | <initial>SMS</initial> |
| 拼读字母/编号(保单号/邮箱) | 大写+空格,不加 initial | <lang:English>H N two…</lang:English> |
| 两人同时说 | 各自分段,重叠部分 <overlap> | <overlap>…</overlap> |
| 噪音 | Vocal/Sounds/Silence ▾ 选 | [cough] [ring] [no-speech] |
| 听不清 | (()) 前后空格 | (()) |
| 整段无人说话 | 勾 No transcription | — |
| ⚠ 提示:英文连读用一对 <lang:English>;含数字的编号/标识符要听音频定读法(字母→大写空格、数字→拼英文)。 |
五、通用规则
逐字记录说话人实际所说,不要纠正语法/用词。
英文/外语保留原文并加 <lang:English>;不要音译。
英文片段内用英文标点;标签外按菲律宾语标点(半角 , . ? !)。
波形对齐:每段起止框住说话内容,不切字、不框入别人话,每段尽量 <15 秒。
⚠ 以下 tl-PH 专属细则【待客户规范】,暂按官方在线速查 + 常识处理,规范到后校准:
数字写法(拼成菲律宾语单词 / 还是其他)
标点与拼写习惯、外来词处理
六、提交 & 自查
☐ 逐字、与音频一致
☐ 英文加 <lang:English>;缩写/编号按规则
☐ 噪音/overlap/(()) 标记正确
☐ 波形对齐、无重叠/截断
☐ 每个音频全绿、无黄色警告 → 再 Submit
☐ 做完回传 checklist + 报工时
不确定先做一小段发负责人确认;tl-PH 专属问题等规范或问负责人。
⑤ 分段交界处:重复的词怎么办
一句话超过 15 秒被系统切成两段时,交界处可能有一个词在两段都出现。
原则:同一个词【只归一段】,不要两段都写——两段都写 = 重复 = 增词,QC 会扣分。
判断那个词主要在哪一段(发音落在哪段时间里),就只在那一段的文字框里写它,另一段把它删掉。
不要标 (()) 听不清——那个词其实是听得清的,(()) 只用于真听不清的地方。
要调段的时间边界,用右侧 Start/End 数字框输入;调不了就只改文字,先保证两段拼起来不重复、不漏字。