oracle数据库意外宕机的分析处理案例

guiyun affiliate
  1. su 切换用户带来的疑惑

这是一个客户的案例,客户的一台oracle数据库服务器突然宕机了,由于在线业务的需要,客户没有考虑太多直接重启了服务器,系统重新启动倒是没有出现问题,可是接下来,当客户切换到oracle用户下启动数据库时,怎么都无法进行su切换,于是问题出现了。

(1)案例现象

在root用户下,su切换到一个普通用户oracle下,却发生了如下错误:

oracle数据库意外宕机的分析处理案例

于是,尝试直接通过oracle用户登录系统,发现此时的oracle用户也无法登录了,出现与上面同样的错误。
2、解决思路
从上面错误提示可知是权限出现了问题,那么可以从权限入手进行排查,基本思路如下:
用户目录/home/oracle权限问题;
su程序执行权限问题;
程序依赖的共享权限问题;
selinux问题导致;
系统根空间问题。
3、排查问题
根据上面的思路,我们进行逐一检查,考虑到su在切换到oracle用户时会读取oracle目录下的环境变量配置文件,因此,首先检查/home/oralce目录的权限是否存在问题,
[root@loaclhost home]# ls -al/home|grep oracle
drwx---- 4 oralce  oinstall 4096 01-31 10:45 oracle
从输出可知,/home/oracle目录的属主是oracle用户,oracle用户对这个目录有“rwx”权限,因此,oracle用户目录的权限设置是正确的,可以排除掉这个问题了。
接着检查su执行权限问题:
[root@loaclhost home]# 11 /bin/su
-rwsr-xr-x 1 root root 24120 2007-11-30 /bin/su
可见su命令执行权限也没有问题,这个也排除了。
继续检查su依赖的共享库权限,使用ldd命令检查su命令依赖的共享库文件,如下图
image.png


根据上面的操作,依次检查su命令依赖的每个库文件的权限,发现也都是正常的,因此,共享库的问题也排除了。

根据上面的思路,绩效检查SELinux的设置。
image.png
由输出可知,SELinux处于关闭状态,这个原因也排除了。
到这来为止,问题变得朴素迷离,到底是哪里出现问题了呢?作为Linux运维,例行检查系统根分区状态是非常必要的,那么首先检查一个根分区的磁盘空间大小,发现剩余空间还有很多,空间问题也排除了。既然报的错误是权限有问题,那么只要以权限为线索,不偏离这个核心没错,于是继续尝试检查/home目录下各个用户的权限,如下图。

image.png

从输出看每个用户的目录权限,都是“rwx----”,即“700”,完全没有问题,可是我发现我错了,我的目光一直在用户对应的目录上,而忽略了其他输出信息,而问题藏在我没有关注的信息中。在这个命令输出的前两行中,行权限对应的目录是“.”,代表当前目录,也是/home目录,权限为“rwxr-xr-x”,第二行权限对应的目录是“..”,也是根目录,权限却为“rw-rw-rw-”,即“666”,此时,问题终于查找到了,原来是根目录权限问题。
4、解决问题
知道了问题产生的原因,解决问题非常简单,执行如下命令:
[root@localhost~]#chmod 755 /

然后可顺利执行su切换命令。


总结:

这个问题主要是由于根目录没有执行权限,而Linux下所有的操作都是在根目录下进行的,进而导致/home/oralce目录没有执行权限。其实根目录权限的丢失对于系统中运行的每个用户存在同样的影响。因此,在权限出现问题时,一定要注意根目录的权限。


guiyun affiliate

作者头像
南宫俊逸创始人

君子好学,自强不息~

上一篇:Zabbix功能概述及架构介绍(理论篇)
下一篇:Centos下出现read-only file system 的解决办法

相关推荐

4

发表评论