LZN's Blog CodePlayer

【已解决】四期平台ys队列排队机制问题

2014-09-19
LZN

前几天发现ys队列的排队机制存在问题,即若某节点已经被前一个任务独占,排队机制似乎没有摒除该节点,后一个任务依然可能被提交到该节点,造成负载过大。发邮件给学校超算中心后如石沉大海,没有回复。想到之前给杨老师集群做测试的时候,直接手动指定hostfiles,于是自己动手,丰衣足食。

先写hostfile文件,比如使用c74到c77四个节点,每个节点16个核心,hostfile可以这样写

c74:16

c75:16

c76:16

c77:16

然后mpirun -hosts后面指定到这个文件。

需要注意的是,提交pbs的话会被忽视这个设定,所以只能采用screen的方式运行脚本。pestat qstat下都不能查到任务号。


Similar Posts

Comments