进行机器学习特征选择的Python工具

发布时间：2021-04-19 14:10:11 所属栏目：动态来源：互联网

导读：是在数据集中寻找和选择最有用的特征的过程，是机器学习pipeline中的一个关键步骤。不必要的特征降低了训练速度，降低了模型的可解释性，最重要的是，降低了测试集的泛化性能。我发现自己一遍又一遍地为机器学习问题应用特别的特征选择方法，这让我感到沮丧

是在数据集中寻找和选择最有用的特征的过程，是机器学习 pipeline中的一个关键步骤。不必要的特征降低了训练速度，降低了模型的可解释性，最重要的是，降低了测试集的泛化性能。

我发现自己一遍又一遍地为机器学习问题应用特别的特征选择方法，这让我感到沮丧，于是我在 Python 中构建了一个特征选择类可在GitHub上找到。 FeatureSelector包括一些最常见的特征选择方法：

在本文中，我们将在一个样例机器学习数据集上使用 FeatureSelector。我们将看到它如何允许我们快速实现这些方法，从而实现更有效的工作流。

完整的代码可在GitHub上获得，我鼓励任何贡献。 Feature Selector正在开发中，并将根据社区的需要不断改进！

在本例中，我们将使用Kaggle上的Home Credit Default Risk machine learning competition数据。(要开始竞赛，请参见本文)。整个数据集可下载，这里我们将使用一个例子来演示。例数据，TARGET是分类的标签

这个比赛是一个监督分类问题，这是一个很好的数据集，因为它有许多缺失的值，许多高度相关(共线)的特征，和一些不相关的特征，这对机器学习模型没有帮助。

要创建 FeatureSelector类的实例，我们需要传入一个结构化数据集，其中包含行和列中的特征。我们可以使用一些只有特征的方法，但是基于重要性的方法也需要训练标签。由于我们有一个监督分类任务，我们将使用一组特征和一组标签。

(确保在与feature_selector.py相同的目录中运行这个脚本)

征选择器有五种方法来查找要删除的特征。我们可以访问任何已识别的特征并手动从数据中删除它们，或者使用特征选择器中的“remove”函数。

在这里，我们将详细介绍每种识别方法，并展示如何同时运行所有5种方法。 FeatureSelector还具有一些绘图功能，因为可视化检查数据是机器学习的关键组件。

查找要删除的特征的第一种方法很简单：看看哪些特征的缺失值的比例大于某个阈值。下面的调用标识了缺失值超过60%的特征。

（编辑：东莞站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

神舟十四号载人飞行任	微软 Visual Studio 2
FCC 文件揭示苹果神秘	欧洲首家本土电池厂 N