王海庆的云笔记

CentOS7安装IBM LSF 10.2


        IBM® Platform™ LSF®是集成电路设计行业具有统治地位的集群管理调度系统。同免费开源的openlava和SGE等相比,LSF在功能扩展性和稳定性上具有极大的优势;同流行的slurm及PBS相比,LSF则在EDA兼容方面具有不可替代的地位。


半导体设计制造生态系统


关闭防火墙

systemctl stop firewalld
systemctl disable firewalld
sed -i -e  's/^SELINUX=.*/SELINUX=disabled/g' /etc/selinux/config
setenforce 0


换成阿里云的源

rm -rf /etc/yum.repos.d/*
curl -o /etc/yum.repos.d/CentOS-Base.repo https://mirrors.aliyun.com/repo/Centos-7.repo
curl -o /etc/yum.repos.d/epel.repo https://mirrors.aliyun.com/repo/epel-7.repo

yum clean all
yum makecache fast -y


设置主机名,主机名一定不能重复(分别执行)

hostnamectl set-hostname master
hostnamectl set-hostname node01
hostnamectl set-hostname node02


设置hosts

cat >>  /etc/hosts << EOF
172.18.0.115 master
172.18.0.116 node01
172.18.0.117 node02
EOF


ntpdate 时间同步

yum install ntpdate -y

ntpdate time1.aliyun.com
echo "0 8 * * * /usr/sbin/ntpdate time1.aliyun.com >> /var/log/ntpdate.log" >> /var/spool/cron/root
timedatectl set-timezone Asia/Shanghai
hwclock --systohc


设置共享存储(未验证)

如果有多台机器,需要在所有机器上启动NFS服务,设置好共享目录,lsf需要安装在共享目录,以保证所有的机器都能够读取同一份设置。


下载lsfsce10.2.0.6-x86_64.tar.gz(1.87GB)

# 注册IBM账号、登录、搜索lsf、下载
https://www.ibm.com/search?lang=en&cc=us&q=lsf


解压

tar zxvf lsfsce10.2.0.6-x86_64.tar.gz -C /opt
cd /opt/lsfsce10.2.0.6-x86_64/lsf/
tar zxvf lsf10.1_lsfinstall_linux_x86_64.tar.Z
cd lsf10.1_lsfinstall
 
cat >>  /opt/lsfsce10.2.0.6-x86_64/lsf/lsf10.1_lsfinstall/install.config << 'EOF'
LSF_TOP="/opt/lsfsce10.2.0.6-x86_64/lsf/"
LSF_ADMINS="lsfadmin"
LSF_CLUSTER_NAME="zkxy"
LSF_MASTER_LIST="master"
LSF_TARDIR="/opt/lsfsce10.2.0.6-x86_64/lsf/"
LSF_ADD_SERVERS="node01 node02"
EOF


正版授权

LSF_ENTITLEMENT_FILE="/root/lsf/platform_hpc_std_entitlement.dat" (安装源许可证的地址)


字段的含义

# 安装目录
LSF_TOP

# 先创建lsfadmin的用户名
LSF_ADMINS

# 集群名称
LSF_CLUSTER_NAME

# LSF管理节点
LSF_MASTER_LIST

# 安装源许可证的地址
LSF_ENTITLEMENT_FILE

# 安装源文件包的地址
LSF_TARDIR


创建用户

# useradd lsfadmin
useradd -m -u 600 -g users lsfadmin


修改权限(待验证)

chown lsfadmin:users /opt/lsfsce10.2.0.6-x86_64/lsf


node节点需要安装,否则lsfinstall时报错 

yum install ed -y


安装lsf

./lsfinstall -f install.config


配置

echo "LSF_RSH=ssh" >> /opt/lsfsce10.2.0.6-x86_64/lsf/conf/lsf.conf

/bin/cp -f /opt/lsfsce10.2.0.6-x86_64/lsf/conf/cshrc.lsf /etc/profile.d/
/bin/cp -f /opt/lsfsce10.2.0.6-x86_64/lsf/conf/profile.lsf /etc/profile.d/
source /etc/profile.d/profile.lsf

 

登陆master节点,用root账号启动lsf集群(请注意,lsf社区版不允许机器cpu核数超过两个核,否则lsfstartup无法启动

启动/停止LSF进程(三种方式)
1、
lsfstartup
lsfstop

2、
lsadmin limstartup
lsadmin resstartup
badmin hstartup

lsadmin limshutdown
lsadmin resshutdown
badmin hshutdown

3、
lsf_daemons start
lsf_daemons stop

# 提交作业
bsub

# 查看作业信息
bjobs

# 查看作业历史
bhist

# 查看节点静态资源
lshosts

# 查看节点状态和资源信息
bhosts,lsload

# 查看队列配置
bqueues

# 查看限制limit信息
blimits

# 查看集群版本和主节点
lsid


提交任务

su - lsfadmin
bsub sleep 120


查看job

bjobs


设置开机自启动(所有节点) 

/opt/lsfsce10.2.0.6-x86_64/lsf/10.1/install/hostsetup --top="/opt/lsfsce10.2.0.6-x86_64/lsf" --boot="y"


从queue和hosts上可以看查看机器的静态资源及动态负载状况

bqueues normal
lsload


设置root可提交任务,重启lsf进程

LSF_ROOT_REX=local


参考

https://my.oschina.net/liyanqing/blog/4694794
https://blog.csdn.net/wo4owen/article/details/121418153
https://www.ibm.com/docs/en/spectrum-lsf/10.1.0?topic=getting-started


文章最后更新时间: 2022-01-04 20:21:50