如果您在使用Amazon SageMaker SDK在自定义训练作业中训练模型时无法保存模型输出,请考虑以下解决方案:
1.查看您的训练脚本是否将模型保存在正确的位置并正确命名:
model_path = os.path.join(args.model_dir, 'model.pth')
torch.save(model.state_dict(), model_path)
2.确保您在创建训练作业时指定了正确的模型输出路径:
hyperparameters = {
"epochs": 10,
"backend": "gloo"
}
estimator = PyTorch(
entry_point='train.py',
role=role,
framework_version='1.4.0',
py_version='py3',
train_instance_count=1,
train_instance_type='ml.p3.2xlarge',
output_path='s3://{}/{}/output'.format(bucket, prefix),
hyperparameters=hyperparameters)
estimator.fit({'training': s3_input_train})
3.检查您是否具有足够的权限在S3存储桶中创建/写入文件。
如果您已经尝试了以上所有方法并且仍无法解决问题,请考虑在训练作业完成后使用S3客户端将模型手动保存到 S3 存储桶。
上一篇:AWSSageMaker-在启用了AWSSSO的域中,需要提供SingleSignOnIdentifierTypeString和SingleSignOnIdentifierValue两个字段。