IBM Platform LSF家族安装和配置简介 V1.0

发布时间 : 星期三 文章IBM Platform LSF家族安装和配置简介 V1.0更新完毕开始阅读

[root@S2 conf]# tail lsf.conf LSF_RSH=\

2.2.7 启动/停止LSF进程(三种方式) [root@S2 conf]# lsfstartup/lsfstop 或者

lsadmin limstatup/limshutdown lsadmin resstartup/resshutdown badmin hstartup/hshutdown

或者

lsf_daemons start/stop

[root@S2 conf]# lsid

IBM Platform LSF Express 8.3 for IBM Platform HPC, May 10 2012 Copyright Platform Computing Inc., an IBM Company, 1992-2012.

US Government Users Restricted Rights - Use, duplication or disclosure restricted by GSA ADP Schedule Contract with IBM Corp.

My cluster name is platform My master name is s2

You have new mail in /var/spool/mail/root [root@S2 conf]# lsload

HOST_NAME status r15s r1m r15m ut pg ls it tmp swp mem s2 ok 0.0 0.0 0.0 1% 0.0 1 0 151G 20G 61G s4 ok 0.0 0.0 0.0 2% 0.0 1 2 183G 20G 62G s6 ok 0.0 0.0 0.0 3% 0.0 1 2 3734M 2G 30G s5 ok 0.0 0.0 0.0 5% 0.0 1 2 3468M 2G 30G

5 | Page

2.2.8 测试提交作业 bsub sleep 100000

2.2.9 使能root提交作业 enable root to submit job: LSF_ROOT_REX=local 重启LSF进程。

2.2.10 修改配置文件后reconfig 修改lsf.*配置文件后lsadmin reconfig 修改lsb.*配置文件后badmin reconfig

部分参数需要重启LSF主调度或者其他进程:badmin mbdrestart; lsadmin limrestart; lsadmin resrestart; badmin hrestart

2.2.11 日志和debug

Find the logs under log directory. LSF will run mainly 3 processes on each node, on master node will have 2 more.

Master: lim,res,sbatchd,mbatchd,mbsched Compute:lim,res,sbatchd Turn on debug in command line:

Run lim -2 directly on node to check why lim not startup.

2.3 配置文件说明

目录/etc/init.d:

/etc/init.s/lsf lsf服务自启动脚本 目录/apps/platform/8.3/lsf/conf: lsf.conf lsf配置文件 lsf.cluster.cluster83 集群配置文件 lsf.shared 共享资源定义文件

./lsbatch/cluster83/configdir/lsb.* 调度系统配置文件

6 | Page

lsb.users lsf用户与用户组配置文件 lsb.queues lsf队列配置文件 lsb.params lsf调度参数配置文件 lsb.applications lsf应用配置文件 lsb.hosts lsf机器与机器组配置文件 lsb.resources lsf资源配置文件 lsb.modules lsf模块配置文件

2.4 常用命令

bsub:提交作业; bjobs:查看作业信息; bhist:查看作业历史; lshosts:查看节点静态资源;

bhosts,lsload:查看节点状态和资源信息; bqueues :查看队列配置; blimits:查看限制limit信息; lsid:集群版本和主节点; bmod:修改bsub option; 等等。

2.5 基于资源的调度策略

bsub –R “ ((type==LINUX2.4 && r1m < 2.0)||(type==AIX && r1m < 1.0)) ” 或者在队列lsb.queues或者lsb.application文件定义:

RES_REQ=select[((type==LINUX2.4 && r1m < 2.0)||(type==AIX && r1m < 1.0))] bsub –R \rusage[swap=300,mem=500]\

7 | Page

bsub –R rusage[mem=500:app_lic_v2=1 || mem=400:app_lic_v1.5=1]\bsub –R \

2.6 配置公平竞争调度策略

2.6.1 添加轮循调度队列

Modify lsb.queues, add following Begin Queue

QUEUE_NAME = roundRobin PRIORITY = 40

FAIRSHARE = USER_SHARES[[default,1]]

#USERS = userGroupA Define your own usergroup End Queue

Run badmin reconfig to enable the change. Run bqueues –l to check the queue’s configure 2.6.2 添加层次公平竞争策略

Add following queue to add hierarchicalshare policy: Begin Queue

QUEUE_NAME = hierarchicalShare PRIORITY = 40

USERS = userGroupB userGroupC

FAIRSHARE = USER_SHARES[[userGroupB,7] [userGroupC,3]] End Queue

2.6.3 多队列公平竞争策略

在lsb.queues中添加下列队列,注意节点组和用户组定义。 Begin Queue

8 | Page

联系合同范文客服:xxxxx#qq.com(#替换为@)