打回去向配置对比:to_labeler vs to_previous

"打回上一轮"(to_previous)真的会让出题专家更容易放弃吗?——把两组项目摊开,逐项对比 + 双通道交叉验证

一句话结论: reject_mode 不是一个因果开关,更像是贴在"难项目"上的一个标签。 to_previous 的返修后放弃率确实在各口径下都略高(全量 40.6% vs 36.7%),但所有试图解释"为什么"的机制信号——打回回流去向、质检/抽检的严格度——要么不成立,要么随口径上下翻转。最可能的真相:to_previous 这批本就是更难、更专业的项目(千寻/VLM/文脉/领航/Openclaw),放弃多是项目本身的事,配置只是搭了便车。

① 两组规模与放弃率(双通道核验一致)

to_labeler

打回 → 退回出题专家(标注环节)

36.7%

返修后放弃率(全量)· 活跃口径 31.3%

有返修活动的项目78 个

总题量58,539

被打回题19,827

返修后放弃题7,277

to_previous(打回上一轮)

名义"回上一阶段",实际 96% 仍退回出题专家

40.6%

返修后放弃率(全量)· 活跃口径 42.0%

有返修活动的项目17 个

总题量25,346

被打回题7,368

返修后放弃题2,992

口径:被打回=有 review/qa 的 rejected 事件;放弃=current_status=abandoned。通道1(按项目汇总)与通道2(直算)完全一致;全量含已停项目,活跃仅 in_progress。

② 关键:差异稳不稳?(稳定=可能真有效应;翻转=构成噪声)

指标(项目级中位数)	labeler·全量	previous·全量	labeler·活跃	previous·活跃	判定
返修后放弃率	36.7%	40.6%	31.3%	42.0%	稳定:previous 总是略高
质检(review)打回率	54.1%	60.3%	69.0%	56.4%	翻转!
抽检(qa)打回率	23.8%	20.0%	12.0%	24.4%	翻转!

质检/抽检谁更严,会随"是否算上已停项目"而上下颠倒,且每格样本仅 5–19 个项目。这是假相关/构成效应的典型特征,不是稳定的机制效应。唯一两口径同向的,只有"previous 放弃率略高"。

③ 机制证据:让配置"起作用"的链条没发生

打回回流去向: 两种模式的抽检打回都退回出题专家。to_labeler 1,356 笔全回标注;to_previous 2,218 笔里 2,139 回标注、仅 79 回质检(96% vs 3.6%)。→ "质检怕被打回来所以更严挡"这个链条,数据里几乎不存在(绝大多数题压根没走质检环节,labeling→qa 直连)。
配置与项目类型焊死: 活跃项目里两模式 0 个出题模板重叠。reject_mode 不是独立可调的行为开关,而是跟着项目类型走。
"更难=更多打回"也不成立: 真正高难专业的领航·法律/医疗/自然科学(都是 to_previous)抽检打回率只有 4.7%–10.7%;把 to_previous 顶高的是千寻/VLM,不是领航。

④ 那到底为什么 previous 放弃略高?三种可能

最可能:就是项目本身(假相关)。 to_previous = 千寻/VLM/文脉/领航/Openclaw 这批更难、更专业、更小众的出题项目。专家放弃多是题难、单题工作量大、要专业背景、钱配不上投入——配置只是碰巧贴在这批难项目上的名字。(类比:开宝马的人收入高,不是宝马让人变富。)
有可能:质量关卡位置不同。部分 to_previous 项目跳过质检、labeling→抽检直连,出题人没有质检这个缓冲/教练环节,做完直接撞抽检——可能更容易放弃。但这是流程设计差异,非 reject_mode 本身。
排不掉:专家池不同。不同项目招不同专家,有的池子本就更易流失,与流程无关。

⑤ 每个项目明细(可点表头排序;红=返修后放弃率≥50%)

to_labeler( 个项目)

to_previous( 个项目)

⑥ 怎么才能一锤定音?

观察数据切不开"配置 vs 难度"(两者粘死)。要真证明 reject_mode 本身有没有效应,唯一干净的办法:挑几个条件接近的项目(同题型/同难度/同专家池),把 reject_mode 翻一下做 A/B,看放弃率动不动。在那之前,不建议为了降放弃率去动这个配置——大概率动错地方。

数据源 data_label_platform_analytics(insight 分析库,实时同步) · 取数 2026-06-23 · 口径:被打回=tbl_project_items_log 中 stage∈(review,qa) 且 action=rejected 的题(去重);放弃=tbl_project_items.current_status=abandoned;打回率=项目级 rejected/(rejected+approved) 事件,样本门槛 decided≥50 取中位数 · 全部聚合数双通道(按项目汇总 vs 直算)交叉验证一致。仅含有返修活动(被打回≥1)的项目。