打回去向配置对比:to_labeler vs to_previous

"打回上一轮"(to_previous)真的会让出题专家更容易放弃吗?——把两组项目摊开,逐项对比 + 双通道交叉验证
一句话结论: reject_mode 不是一个因果开关,更像是贴在"难项目"上的一个标签。 to_previous 的返修后放弃率确实在各口径下都略高(全量 40.6% vs 36.7%),但所有试图解释"为什么"的机制信号——打回回流去向、质检/抽检的严格度——要么不成立,要么随口径上下翻转。最可能的真相:to_previous 这批本就是更难、更专业的项目(千寻/VLM/文脉/领航/Openclaw),放弃多是项目本身的事,配置只是搭了便车。

① 两组规模与放弃率(双通道核验一致)

to_labeler

打回 → 退回出题专家(标注环节)
36.7%
返修后放弃率(全量)· 活跃口径 31.3%
有返修活动的项目78 个
总题量58,539
被打回题19,827
返修后放弃题7,277
口径:被打回=有 review/qa 的 rejected 事件;放弃=current_status=abandoned。通道1(按项目汇总)与通道2(直算)完全一致;全量含已停项目,活跃仅 in_progress。

② 关键:差异稳不稳?(稳定=可能真有效应;翻转=构成噪声)

指标(项目级中位数)labeler·全量previous·全量labeler·活跃previous·活跃判定
返修后放弃率36.7%40.6%31.3%42.0%稳定:previous 总是略高
质检(review)打回率54.1%60.3%69.0%56.4%翻转!
抽检(qa)打回率23.8%20.0%12.0%24.4%翻转!
质检/抽检谁更严,会随"是否算上已停项目"而上下颠倒,且每格样本仅 5–19 个项目。这是假相关/构成效应的典型特征,不是稳定的机制效应。唯一两口径同向的,只有"previous 放弃率略高"。

③ 机制证据:让配置"起作用"的链条没发生

④ 那到底为什么 previous 放弃略高?三种可能

  1. 最可能:就是项目本身(假相关)。 to_previous = 千寻/VLM/文脉/领航/Openclaw 这批更难、更专业、更小众的出题项目。专家放弃多是题难、单题工作量大、要专业背景、钱配不上投入——配置只是碰巧贴在这批难项目上的名字。(类比:开宝马的人收入高,不是宝马让人变富。)
  2. 有可能:质量关卡位置不同。 部分 to_previous 项目跳过质检、labeling→抽检直连,出题人没有质检这个缓冲/教练环节,做完直接撞抽检——可能更容易放弃。但这是流程设计差异,非 reject_mode 本身。
  3. 排不掉:专家池不同。 不同项目招不同专家,有的池子本就更易流失,与流程无关。

⑤ 每个项目明细(可点表头排序;红=返修后放弃率≥50%)

to_labeler( 个项目)
to_previous( 个项目)

⑥ 怎么才能一锤定音?

观察数据切不开"配置 vs 难度"(两者粘死)。要真证明 reject_mode 本身有没有效应,唯一干净的办法:挑几个条件接近的项目(同题型/同难度/同专家池),把 reject_mode 翻一下做 A/B,看放弃率动不动。在那之前,不建议为了降放弃率去动这个配置——大概率动错地方。
数据源 data_label_platform_analytics(insight 分析库,实时同步) · 取数 2026-06-23 · 口径:被打回=tbl_project_items_log 中 stage∈(review,qa) 且 action=rejected 的题(去重);放弃=tbl_project_items.current_status=abandoned;打回率=项目级 rejected/(rejected+approved) 事件,样本门槛 decided≥50 取中位数 · 全部聚合数双通道(按项目汇总 vs 直算)交叉验证一致。仅含有返修活动(被打回≥1)的项目。