LZN's Blog CodePlayer

【已解决】CESM continue run出现Internal pop2 clock not in sync with Sync Clock的问题

2014-10-17
LZN

晚上查天河二号的spin-up任务,发现下午的时候居然断掉了,已经积分了99年,队列状态一直是CG状态卡死,貌似是某个节点的一个进程被kill掉了,其他节点陆续因为超时退出。

好吧,不管那个CG。重新提交任务,continue run,没想到initial的时候给我弹出了,纳尼……

查看log文件发现如下错误

Internal pop2 clock not in sync with Sync Clock

POP2的时钟不同步? 这么有意思,貌似之前碰到过,因为转的时间不久,索性直接重新start-up了,这次可是转了10天啊我擦嘞,要是重新返工岂不是要命了。果断google,然后发现了这个:

https://bb.cgd.ucar.edu/internal-pop2-clock-not-sync-sync-clock

这个意思是直接重走一遍cesm_setup就可以,clean再setup,改build状态,提交任务——依然出错。其他google出来的信息几乎没用,诶,又入无人之境……

既然是初始化的时候时钟同步出问题,想到模式运行生成restart文件的时候会同步配置一个rpointer文件,应该是记录重启点的文件,果断查看,发现问题:只有ocn的相关rpointer文件中指向100年的1月1日,其他都是99年1月1日,明白了,应该是ocn模块指定rpointer的方式与其他module不同,先于其他模块指定了新的重启点,可是其他模块的重启文件还没生成呢。长舒一口气,改rpointer.ocn.restart里面的文件为99年咯,Okay,提交任务!

这次依然提交不久就断掉了,万念俱灰有木有,查看log文件,发现错误不一样了,有点欣喜,说明改rpointer有效。新错误是:

nlfilename_rof does NOT exist:rof_in

这么奇葩,径流模式出问题,老子又不关心你丫的径流,小兔崽子还找事……看起来是找不到rof_in的什么东西,google直接没结果,想到刚刚cesm重新setup过,是不是改了build后的一些namelist?重新build尝试,目前可以运行了,长舒一口气……但愿今晚能顺利跑过断点~


Comments

Content