如何测试机器学习模型--Pycaret快速入门指南之聚类任务

Pycaret

PyCaret是一个代码量超低的机器学习库,它有效的自动化了机器学习工作流。实现了端到端的机器学习和模型管理工具,可以成倍地加快机器学习的学习、部署和实践速度。本文主要介绍Pycaret的特色、优势和理念,喜欢的朋友请关注本专栏,我的专栏将陆续更新Pycaret基础使用和进阶使用的超详细教程,这篇教程主要关注这个库的一些最简单的使用方式。

聚类任务简介

Pycaret的聚类模块是一个无监督的机器学习模块,它执行对一组对象进行分组的任务,使得同一组(也称为集群)中的对象彼此之间比其他组中的对象更相似。它提供了几个预处理功能,通过设置功能为建模准备数据。它有超过10个随时可用的算法和多种绘图方法来分析训练模型的性能。

设置

这个函数初始化训练环境并创建转换管道。设置函数必须在执行任何其他函数之前调用。它需要一个强制参数:数据。所有其他的参数都是可选的。

from pycaret.datasets import get_data
data = get_data('jewellery')

from pycaret.clustering import *
s = setup(data, normalize = True)

当设置被执行时,PyCaret的推理算法将根据某些属性自动推断出所有特征的数据类型。数据类型应该被正确推断出来,但情况并非总是如此。为了处理这个问题,PyCaret会显示一个提示,要求确认数据类型,一旦你执行设置。如果所有的数据类型都是正确的,你可以按回车键,或者键入退出退出设置。

在Pycaret中,确保数据类型正确非常重要,因为它会自动执行多类型特定的预处理任务,这对于机器学习模型来说是必不可少的。或者,我们也可以在设置中使用数字特征和分类特征参数来预定义数据类型。关于这部分的详细解读,请看机器学习从零基础到精通

建立模型

这个函数训练和评估一个给定模型的性能。评估的指标可以用get_metrics函数访问。可以使用add_metric和remove_metric函数来添加或删除自定义指标。所有可用的模型都可以用models函数访问。

kmeans = create_model('kmeans')

print(kmeans)

分析和可视化模型

该函数分析了一个上一步训练完成的模型的性能。

evaluate_model(kmeans)

evaluate_model 只能在笔记本中使用,因为它使用了 ipywidget 。你也可以使用 plot_model 函数来单独生成图。

plot_model(kmeans, plot = 'elbow')

plot_model(kmeans, plot = 'silhouette')

分发标签

这个函数给训练数据分配聚类标签。

result = assign_model(kmeans)
result.head()

这个函数使用在新的/未见过的数据集上训练好的模型生成聚类标签。

predictions = predict_model(kmeans, data = data)
predictions.head()

保存和重载模型

保存

save_model(kmeans, 'kmeans_pipeline')

重载:

loaded_model = load_model('kmeans_pipeline')
print(loaded_model)

更详细的教程和一对一指导,请见【机器学习从零基础到精通

作者:wormhacker原文地址:https://blog.csdn.net/wormhacker/article/details/128756838

%s 个评论

要回复文章请先登录注册