1.smac——基于随机森林的指标贝叶斯优化
smac——基于随机森林的贝叶斯优化
基于随机森林的贝叶斯优化相较于基于高斯过程的贝叶斯优化,对于初学者来说,源码理解起来更为直观。式源skopt库中实现的指标基于随机森林的贝叶斯优化,其代理模型直接采用sklearn中的源码回归器,这使得优化过程更为简洁。式源router-link源码
在基于随机森林的指标贝叶斯优化中,以xgboost为例,源码我们通过随机初始化组超参数,式源并通过交叉验证获得个AUC值。指标然后,源码我们使用随机森林拟合这些数据。式源假设随机森林的指标树的数量为,训练完毕后,源码得到颗独立的式源树,每棵树分别针对超参数与AUC进行拟合。因此,planner源码下载所有树的预测结果构建了一个经验近似的高斯过程分布,其均值为所有树预测结果的平均值,方差为所有树叶子节点的impurity的平均值。在skopt实现中,impurity概念指的是决策树内部节点的不纯度,通常在分类问题中使用,这里应用在回归场景。
在优化过程中,访客登记源码skopt对参数设置了一些微小的约束,但整体思路保持一致。接下来,我们通过具体测试来解析计算过程。
以第一棵树为例,`tree.apply`返回样本在树上的叶子节点索引值,`impurity`直接返回对应叶子节点上的评价准则,即叶子节点上各个标签与其均值差的评论模版源码平方和。对于个样本,我们得到每个叶子节点的impurity值。
我们计算的`mean_tree`是单棵树的最终预测结果。最终,我们得到一个关于超参数组合与评价指标之间的经验高斯分布,这个分布的均值为所有树预测结果的平均值,而方差则是每棵树对所有样本impurity的平均值。
在计算过程中,html签到源码我们假设超参数组合与评价指标服从某种高斯分布,但使用随机森林近似建立经验高斯模型。具体做法是,每棵树的预测结果平均值构成均值向量,而协方差矩阵中的数值对应于每棵树对所有样本的impurity。这种做法与高斯过程类似,都是通过模型预测超参数与评价指标之间的关系。
随机森林中计算预测方差的方式通过`tree.impurity`实现,计算过程涉及到回归决策树的基本预测过程。在某棵树中,假设某个叶子节点有个样本,每个样本的真实回归标签不同,树的预测则是这些样本的平均值。因此,`tree.impurity`实际上是这个样本真实标签标准差的平方,即方差。
最终,通过随机森林的预测结果,我们得到关于一组超参数的多元高斯分布。当新的超参数出现时,通过高斯分布的边缘概率分布公式,直接得到其服从的单高斯分布,预测均值作为模型效果的预测。这种处理方式简化了高维空间下的优化过程,通过计算样本预测的置信度,用于后续ac函数的计算。
简而言之,基于随机森林的贝叶斯优化假定每个超参数组合和评价指标服从高斯分布,通过随机森林近似建立多元高斯分布模型,解决优化问题。预测方差作为样本预测置信度,用于后续优化过程中的决策。