AWS Sagemaker和Sagemaker_pyspark之间的主要区别在于它们使用的语言。Sagemaker_pyspark是一个在Spark集群上运行的Python包,而AWS Sagemaker是一个完全托管的机器学习服务,可使用多种编程语言进行训练和部署。
如果您正在使用Spark并想要将机器学习模型整合到您的Spark集群中,则应使用Sagemaker_pyspark。如果您的需求更多地侧重于将模型训练和部署作为完全托管的服务来管理,则建议使用AWS Sagemaker。
以下是使用Sagemaker_pyspark包将模型整合到Spark集群中的示例代码:
from sagemaker_pyspark import SageMakerEstimator
from pyspark.ml.feature import PCA
# 创建Sagemaker estimator对象
smEstimator = SageMakerEstimator(
entryPoint="train.py",
role="SageMakerRole",
trainingInstanceType="ml.m5.xlarge",
trainingInstanceCount=1,
s3OutputPath="s3:///output",
baseJobName="job",
frameworkVersion="2.3",
pyVersion="py37",
hyperparameters={
"num_components": "10"
})
# 使用PCA算法进行特征转换
pca = PCA(k=5, inputCol="features", outputCol="pca_features")
model = pca.fit(df)
# 使用Sagemaker estimator进行模型训练
smModel = smEstimator.fit(model.transform(df))
上一篇:AWSSageMaker管道问题-管道变量不支持__str__操作
下一篇:AWSSagemakerInvokeEndpoint:operation:Endpointofaccountnotfound。