Linux 学习之:如何让代码在后台保持运行
创始人
2024-04-20 15:24:46
0

文章目录

  • nohup 命令
    • 使用场景
    • 使用方法
      • nohup ... &
      • nohup ... > train.log 2>&1 &
    • 结束进程
  • 参考文章

nohup 命令

使用场景

  • 比如我要在服务器里运行如下代码来训练我的深度学习模型:
python train.py

在这里插入图片描述

  • 但是这样运行你一旦合上笔记本电脑或者换个工作环境而发生网络断连的情况,远程连接也随之停止,之前训练的就白费了,很浪费运算资源和时间

使用方法

nohup … &

nohup python train.py &
  • 如果你执行这个代码,在你的屏幕上显示的结果应该是:

在这里插入图片描述

  • 1807028 代表的是现在这个程序的唯一标识,因为我们采用 nohup 命令就相当于把这个程序放到后台执行了,所以即使现在网络断掉还是会保持执行,因此我们不能再用常规的 ctrl + c 来结束程序,我们要根据这个 pid 来结束程序
  • nohup: ignoring input and appending output to inohup.out 这句话表示所有的信息将会重定向到 nohup.out 这个文件中在这里插入图片描述
  • 但是 nohup.out 这个文件中并不会将你在 train.pyprint 的那些信息也进行保存。那如果我想获得这些信息怎么办呢?答案是采用一个 log 文件来保存运行过程中的所有信息。

nohup … > train.log 2>&1 &

nohup python train.py > train.log 2>&1 &

在这里插入图片描述

  • 数字仍然是 pid
  • 这个命令的含义是将所有的运行结果重定向到 train.log

2>&1解释:
将标准错误2 重定向到标准输出 &1,标准输出 &1再被重定向输入到 train.log 文件中。

  • 0 - stdin (standard input, 标准输入)
  • 1 - stdout (standard output, 标准输出)
  • 2 - stderr (standard error,标准错误输出)
  • 采取上述命令之后可以看到所有的信息都被记录到 train.log 中了
args:
Namespace(batch_size=8, bpe_token=False, cls_index_path='data/cls_index.json', device='0,1,2,3', encoder_json='tokenizations/encoder.json', epochs=8, fp16=False, fp16_opt_level='O1', gradient_accumulation=1, log_step=10, lr=0.00015, max_grad_norm=1.0, min_length=128, model_config='config/model_config_small.json', num_pieces=3, output_dir='model/', pretrained_model='pretrained/GPT2-base-Chinese', raw=False, raw_data_path='data/jieshuo.txt', samples_path='data/samples.json', segment=False, stride=768, tokenized_data_path='data/jieshuo_tokens_full.txt', tokenizer_path='pretrained/GPT2-base-Chinese/vocab.txt', vocab_bpe='tokenizations/vocab.bpe', warmup_steps=2000, writer_dir='tensorboard_summary/')
config:
{"attn_pdrop": 0.1,"embd_pdrop": 0.1,"finetuning_task": null,"initializer_range": 0.02,"layer_norm_epsilon": 1e-05,"n_ctx": 1024,"n_embd": 768,"n_head": 12,"n_layer": 10,"n_positions": 1024,"num_labels": 1,"output_attentions": false,"output_hidden_states": false,"output_past": true,"pruned_heads": {},"resid_pdrop": 0.1,"summary_activation": null,"summary_first_dropout": 0.1,"summary_proj_to_labels": true,"summary_type": "cls_index","summary_use_proj": true,"torchscript": false,"use_bfloat16": false,"vocab_size": 13317
}using device: cuda
number of parameters: 102068736
calculating total steps
total steps = 80319
Let's use 4 GPUs!
starting training
loading samples
epoch 1
time: 2022-12-09 16:12:14.115555
shuffling samples ...
converting samples
checking samples ....0%|          | 0/9968 [00:00

结束进程

kill -9  进程号PID

参考文章

Linux nohup 命令
【Linux】服务器后台运行程序
如何实现SSH断开后 进程仍然在后台运行
disown命令 – 从当前的shell中移除作业
Linux 让进程在后台运行的几种方法

相关内容

热门资讯

保存时出现了1个错误,导致这篇... 当保存文章时出现错误时,可以通过以下步骤解决问题:查看错误信息:查看错误提示信息可以帮助我们了解具体...
汇川伺服电机位置控制模式参数配... 1. 基本控制参数设置 1)设置位置控制模式   2)绝对值位置线性模...
不能访问光猫的的管理页面 光猫是现代家庭宽带网络的重要组成部分,它可以提供高速稳定的网络连接。但是,有时候我们会遇到不能访问光...
表格中数据未显示 当表格中的数据未显示时,可能是由于以下几个原因导致的:HTML代码问题:检查表格的HTML代码是否正...
本地主机上的图像未显示 问题描述:在本地主机上显示图像时,图像未能正常显示。解决方法:以下是一些可能的解决方法,具体取决于问...
表格列调整大小出现问题 问题描述:表格列调整大小出现问题,无法正常调整列宽。解决方法:检查表格的布局方式是否正确。确保表格使...
不一致的条件格式 要解决不一致的条件格式问题,可以按照以下步骤进行:确定条件格式的规则:首先,需要明确条件格式的规则是...
Android|无法访问或保存... 这个问题可能是由于权限设置不正确导致的。您需要在应用程序清单文件中添加以下代码来请求适当的权限:此外...
【NI Multisim 14...   目录 序言 一、工具栏 🍊1.“标准”工具栏 🍊 2.视图工具...
银河麒麟V10SP1高级服务器... 银河麒麟高级服务器操作系统简介: 银河麒麟高级服务器操作系统V10是针对企业级关键业务...