AI指标深度解析

AI指标不是衡量模型的工具，而是产品决策的战争地图。
答出F1分数定义的人，进不了PM终面；写出PR曲线公式的人，拿不到offer。
真正的判断是：你用指标的方式，暴露了你根本不懂用户。

适合谁看：
准备AI/ML产品经理、技术项目经理面试的人。尤其是背过“precision recall tradeoff”却在case题被挂的人。你在简历写“优化模型指标”，但面试官听到的是“我不懂业务”。

因为AI指标问题从来不是考你数学，是测你是否会替公司做损失最小的判断。

不是你在纸上推导AUC公式，而是你在跨部门会上说“我们改用F2-score”时，能否挡住工程团队的反弹。你在hiring committee被质疑“这人懂业务吗”，答案就藏在你选指标的逻辑里。

BAD回答：我们用准确率，因为模型输出二分类。
GOOD回答：我们用F2-score，因为漏诊成本是误诊的8倍——上季度客服工单显示，一次误报平均处理成本是$12，而漏报导致的用户流失LTV是$96。

这不是统计问题，是成本建模。你在面试说“准确率有偏”，面试官心里想的是“这人只会背课件”。但你说“我们按误报/漏报成本比反推beta值”，他立刻想拉你进项目。

精准率和召回率的冲突，本质是组织资源的分配战争。

不是你画个PR曲线就懂tradeoff，而是你敢不敢在debrie会议里说“我们宁愿让10个正常交易被拦，也不能放过1个欺诈”。你在风控项目里选高召回，其实是把客服人力当消耗品。你选高精准，等于默许欺诈损失。

场景：你做支付反欺诈PM，工程团队说当前模型召回率72%，精准率89%。法务总监要求“不能误伤正常用户”，而CFO盯着月度欺诈损失报表。

BAD判断：我们平衡一下，目标设成F1-score 0.8。
GOOD判断：我们用F0.5-score，因为每增加1%误报，客服人力成本上升$18K/月；而每提升1%召回，欺诈损失降低$6K/月——不值得。

F1是教科书，F0.5是现实。你选什么，暴露你听谁的话：教授，还是财务模型。

AUC的问题不是数学，是它让决策者逃避责任。

不是AUC不能用，而是说“AUC更高”的人，往往回避具体阈值选择。你在面试说“我们AUC从0.82升到0.89”，面试官知道你没碰过上线压力。真正上线时，没人关心AUC，只问“阈值定在哪，为什么”。

insider场景：你做信贷审批模型，data scientist交来报告“AUC 0.91，优于 baseline 0.87”。你在executive review被CEO问：“为什么拒绝率从18%跳到24%？”你答“因为AUC更高”，你会被当场换掉。

BAD回答：AUC综合了所有阈值表现，所以更全面。
GOOD回答：AUC在阈值不确定时有用，但我们已经通过坏账率和通过率收益模型，锁定了最优操作点（operating point）在recall 68%，precision 73%——在这个点上，增量AUC不带来增量收入。

AUC是探索工具，不是决策工具。你用它做终局判断，等于说“我不知道要什么，但数字变大了”。

90%的新指标提案，是为了掩盖数据或产品缺陷。

不是指标不够用，而是产品没想清楚。你在面试说“我们设计了新指标X-Score”，面试官立即警惕：是不是数据污染了？是不是产品逻辑崩了？

具体案例：你做推荐系统，DAU下降。ML团队提“引入diversity-aware NDCG”。表面高大上，实际是承认：热门item垄断推荐位，长尾内容出不来——这本质是产品分发机制问题，不是指标问题。

BAD动作：我们优化diversity-weighted NDCG，权重调成0.7。
GOOD动作：我们拆分推荐池，主feed用传统NDCG，底部“发现”模块用ILAD（Intra-List Average Distance）独立优化，并设定曝光配额——指标不变，架构先变。

新指标是最后手段，不是第一选择。你提新指标，等于自认旧系统救不回。

你的回答结构暴露你思维层级。

不是你列一堆指标名称，而是你展示决策链条。面试官听的是：你有没有把模型输出和商业损失对齐。

insider流程拆解：

步骤1：简历筛选，6秒。写“提升accuracy 15%”的简历被扔。写“通过重采样和代价敏感学习，将F2-score提升0.12，对应季度欺诈损失减少$210K”的进二面。
步骤2：电话面，30分钟。问“你怎么选指标”。背定义的挂。说“先算误报和漏报的单位成本”的进终面。
步骤3：case题，45分钟。给一个电商推荐场景。回答“用CTR和conversion rate”的普通。回答“先看GMV增量对点击率的弹性，再定CTR权重”的进HC讨论。
步骤4：终面，panel 3人。问“如果指标冲突怎么办”。说“开会协调”的挂。说“我们用帕累托前沿找最优解，并设定红黄线阈值自动触发告警”的留。

真正发生的是：你在说指标时，他们在判断你能不能独立负责P&L。

错误1：混淆指标和目标
BAD：我们的目标是提升AUC。
GOOD：我们的目标是降低坏账率5%，AUC是过程监控手段。

错误2：忽略操作阈值
BAD：模型输出概率，我们直接用。
GOOD：我们通过ROC曲线和业务成本矩阵，选定操作阈值0.63，并每两周rebalance。

错误3：指标脱离组织能力
BAD：我们用MAPE评估需求预测，但供应链团队看不懂。
GOOD：我们用“预测偏差导致的库存滞销金额”作为沟通指标，MAPE仅内部参考。

指标是语言。你说得再准，对方听不懂，等于没说。

Q：面试官问“precision和recall哪个重要”，怎么答？
A：哪个都不重要，重要的是成本。说“看场景”是废话。正确答法：给出具体业务中误报和漏报的美元成本比，然后推导出最优beta值。比如“在我们场景，漏报成本是误报的6倍，所以F2-score更合适”。

Q：要不要提业务指标如LTV、GMV？
A：要，但必须和模型指标挂钩。不能说“我们看GMV”，要说“我们将点击率提升10%映射为GMV增量$1.2M/月，基于历史弹性0.18”。脱钩的业务指标是装饰品。

Q：A/B测试中指标冲突怎么办？
A：先定义primary metric，其余设为guardrail。比如推荐系统，primary是GMV，guardrail是CTR下降不超过2%。冲突时，GMV优先，但CTR触发告警需解释。没有红绿灯规则的实验，等于没设计。