🔒 内部分析 · 含项目代号,请勿外传 · 数据源 data_label_platform_analytics(实时)· 2026-06-23
打回去向配置对比:to_labeler vs to_previous
"打回上一轮"(to_previous)真的会让出题专家更容易放弃吗?——把两组项目摊开,逐项对比 + 双通道交叉验证
一句话结论: reject_mode 不是一个因果开关,更像是贴在"难项目"上的一个标签。
to_previous 的返修后放弃率确实在各口径下都略高(全量 40.6% vs 36.7%),但所有试图解释"为什么"的机制信号——打回回流去向、质检/抽检的严格度——要么不成立,要么随口径上下翻转。最可能的真相:to_previous 这批本就是更难、更专业的项目(千寻/VLM/文脉/领航/Openclaw),放弃多是项目本身的事,配置只是搭了便车。
① 两组规模与放弃率(双通道核验一致)
to_labeler
打回 → 退回出题专家(标注环节)
36.7%
返修后放弃率(全量)· 活跃口径 31.3%
有返修活动的项目78 个
总题量58,539
被打回题19,827
返修后放弃题7,277
to_previous(打回上一轮)
名义"回上一阶段",实际 96% 仍退回出题专家
40.6%
返修后放弃率(全量)· 活跃口径 42.0%
有返修活动的项目17 个
总题量25,346
被打回题7,368
返修后放弃题2,992
口径:被打回=有 review/qa 的 rejected 事件;放弃=current_status=abandoned。通道1(按项目汇总)与通道2(直算)完全一致;全量含已停项目,活跃仅 in_progress。
② 关键:差异稳不稳?(稳定=可能真有效应;翻转=构成噪声)
| 指标(项目级中位数) | labeler·全量 | previous·全量 | labeler·活跃 | previous·活跃 | 判定 |
| 返修后放弃率 | 36.7% | 40.6% | 31.3% | 42.0% | 稳定:previous 总是略高 |
| 质检(review)打回率 | 54.1% | 60.3% | 69.0% | 56.4% | 翻转! |
| 抽检(qa)打回率 | 23.8% | 20.0% | 12.0% | 24.4% | 翻转! |
质检/抽检谁更严,会随"是否算上已停项目"而上下颠倒,且每格样本仅 5–19 个项目。这是假相关/构成效应的典型特征,不是稳定的机制效应。唯一两口径同向的,只有"previous 放弃率略高"。
③ 机制证据:让配置"起作用"的链条没发生
- 打回回流去向: 两种模式的抽检打回都退回出题专家。to_labeler 1,356 笔全回标注;to_previous 2,218 笔里 2,139 回标注、仅 79 回质检(96% vs 3.6%)。→ "质检怕被打回来所以更严挡"这个链条,数据里几乎不存在(绝大多数题压根没走质检环节,labeling→qa 直连)。
- 配置与项目类型焊死: 活跃项目里两模式 0 个出题模板重叠。reject_mode 不是独立可调的行为开关,而是跟着项目类型走。
- "更难=更多打回"也不成立: 真正高难专业的领航·法律/医疗/自然科学(都是 to_previous)抽检打回率只有 4.7%–10.7%;把 to_previous 顶高的是千寻/VLM,不是领航。
④ 那到底为什么 previous 放弃略高?三种可能
- 最可能:就是项目本身(假相关)。 to_previous = 千寻/VLM/文脉/领航/Openclaw 这批更难、更专业、更小众的出题项目。专家放弃多是题难、单题工作量大、要专业背景、钱配不上投入——配置只是碰巧贴在这批难项目上的名字。(类比:开宝马的人收入高,不是宝马让人变富。)
- 有可能:质量关卡位置不同。 部分 to_previous 项目跳过质检、labeling→抽检直连,出题人没有质检这个缓冲/教练环节,做完直接撞抽检——可能更容易放弃。但这是流程设计差异,非 reject_mode 本身。
- 排不掉:专家池不同。 不同项目招不同专家,有的池子本就更易流失,与流程无关。
⑤ 每个项目明细(可点表头排序;红=返修后放弃率≥50%)
to_labeler( 个项目)
to_previous( 个项目)
⑥ 怎么才能一锤定音?
观察数据切不开"配置 vs 难度"(两者粘死)。要真证明 reject_mode 本身有没有效应,唯一干净的办法:挑几个条件接近的项目(同题型/同难度/同专家池),把 reject_mode 翻一下做 A/B,看放弃率动不动。在那之前,不建议为了降放弃率去动这个配置——大概率动错地方。