电商搜索广告相关性模型-plus2047 blog

相关性 (Relevance) 模型的地位一般是在 Recall 阶段之后作为 Filter, 只有相关分数 Relevance Score 达到一定标准才能进入后续的 Ranking 阶段。之所以在 Ranking 之后介绍这一部分，是因为 pCTR 模型更具有普遍性。而 Relevance 模型，按我的理解，尽管有其特殊性，但也跟 pCTR 模型有很高的相似性。

搜索广告场景中，pCTR 模型是明确的针对点击率的，Relevance 模型则负责保证搜索关键词与商品相关性。而在搜索场景（非广告）中会更看重相关性，所以有人认为搜索场景的 Ranking 模型目标就应该是相关性。Relevance 模型是搜索问题特有的。可以从两个例子体会相关性和点击率的不同，

有些物品图片特别吸引人，或者标题党，甚至色情物品等等，即使跟搜索关键词无关，点击率也特别高（高点击率低相关性），这些物品并不是我们希望搜索系统返回的
有些物品由于种种原因不够吸引人，很冷门，点击率很低，但本身也可以与搜索关键词高度相关（高相关性低点击率）

但这两个问题并不是能够非常清晰的做出区分的，原因包括，

除了标题党、色情物品等特殊情况（这些情况其实也可以视为 pCTR 模型的 bad case），总体而言，相关性与点击率是正相关的，高相关性商品一般也有高点击率，反之亦然，这两个问题本就不能非常清晰地区分
两者的训练数据和损失函数可能相似，相关性模型的训练常常也是使用点击数据，其实际的模型损失函数可能跟 pCTR 模型差别不大

我的理解是，可以不太严谨的认为商品的点击率，与商品与搜索关键词的相关性，以及商品本身的吸引力这两个因素有关。Relevance 模型理想情况下应该只考量相关性，但 pCTR 模型一定是需要考虑这两方面因素的，无非是在两者之间权衡而已，所以必然会与 Relevance 有所重叠。在搜索广告系统中，pCTR 模型已经承受了足够多的任务，校正后要无偏的预测点击率，并且本身是 Bidding 策略的一部分，因此 Relevance 由一个单独模型负责较好。

Relevance 模型仍然可以通过以下方式与 pCTR 模型做出明确的区分，

Relevance 模型着重使用文本 Embedding、商品类别等等内容特征，避免使用统计 CTR 等常见于 pCTR 模型的统计特征
如果有条件，有高质量的人工标注数据，也即搜索关键词与商品 Title 相关程度标注数据，可以使用标注数据 Fine Tune Relevance 模型

如果使用人工标注数据，由于人工标注数据数据量较少，Releavnce 模型的形式可以是先使用复杂模型提取特征（如预训练语言模型提取 Embedding），然后使用一个简单模型（如 LR 或者 GBDT）综合这些特征生成最终的 Relevance Score. 人工标注数据用于训练这个最终的简单模型。