Resources
用于评估 AI 检测准确率、误报风险、编辑后草稿、多语言样本和审阅限制的简明基准摘要。
有价值的基准应区分纯人工文本、纯 AI 文本、混合作者草稿、编辑后的 AI 输出、翻译段落、短回答和特定领域写作。
总体准确率不足以支撑高风险审阅。团队在选择阈值前,应按语言、文档长度、模板使用和写作语境检查误报率。
基准摘要应指导分流规则、审阅者培训和证据要求,而不是承诺能对单个文档给出完美作者身份证明。
应包含样本类别、模型家族、编辑条件、语言覆盖、误报报告、置信区间,以及结果应如何使用的限制。
不能。基准准确率用于校准审阅流程,但单个决策仍需要段落证据、文档语境、政策和人工判断。