重复何老师试验,跑CAM5的物理,学校集群太慢,于是到天河二号上跑。CTRL试验跑的顺风顺水,一路到30年。SEN试验第一次在第八年断了,第二次第四年,第三次恼了,开continue run,发现错误提示是找不到rpointer文件,原来需要在开始跑的时候就在env_run.xml里设置好REST_N变量才行,默认给的是=$STOP_N。也就是仅仅在程序运行完成后的最后一年生成rpointer文件。只得改成1后继续从头运行,果然每年都生成了每个模块对应的rpointer(rpointer.xxx)。不出所料,程序到第六年又断掉了,把continue run设置为TRUE后可以正常运行。嗯嗯还不错~查看cam的输出发现输出文件莫名其妙大了一些,莫非会输出一些与重启运行有关的变量?
后话是,continue run跑了10个月又挂了,开始怀疑编译存在问题……重新编译继续continue中,囧……
#Up to 20140922#
经后来检查发现,确实是NetCDF 4.0.1的问题,CESM UG上建议采用4.1.2以上的版本,就是因为之前的版本存在corrept write的问题,尤其是在IO拥堵的情况下。Shift到4.3.2后,没有出现这类问题,但是4.3.2在天河二号上似乎还不能够使用ncdump,近期天河二号IO有很大改善,改回4.0.1后出问题的频率大大降低了。
#Up to 20141019#