前几天发现ys队列的排队机制存在问题,即若某节点已经被前一个任务独占,排队机制似乎没有摒除该节点,后一个任务依然可能被提交到该节点,造成负载过大。发邮件给学校超算中心后如石沉大海,没有回复。想到之前给杨老师集群做测试的时候,直接手动指定hostfiles,于是自己动手,丰衣足食。
先写hostfile文件,比如使用c74到c77四个节点,每个节点16个核心,hostfile可以这样写
c74:16
c75:16
c76:16
c77:16
然后mpirun -hosts后面指定到这个文件。
需要注意的是,提交pbs的话会被忽视这个设定,所以只能采用screen的方式运行脚本。pestat qstat下都不能查到任务号。