NFS客户端锁的延时恢复可能会导致HA-NFS的启动失败_VMware, Unix及操作系统讨论区_Weblogic技术|Tuxedo技术|中间件技术|Oracle论坛|JAVA论坛|Linux/Unix技术|hadoop论坛_联动北方技术论坛  
网站首页 | 关于我们 | 服务中心 | 经验交流 | 公司荣誉 | 成功案例 | 合作伙伴 | 联系我们 |
联动北方-国内领先的云技术服务提供商
»  游客             当前位置:  论坛首页 »  自由讨论区 »  VMware, Unix及操作系统讨论区 »
总帖数
1
每页帖数
101/1页1
返回列表
0
发起投票  发起投票 发新帖子
查看: 5166 | 回复: 0   主题: NFS客户端锁的延时恢复可能会导致HA-NFS的启动失败        下一篇 
第五种族
注册用户
等级:列兵
经验:103
发帖:78
精华:0
注册:2011-11-3
状态:离线
发送短消息息给第五种族 加好友    发送短消息息给第五种族 发消息
发表于: IP:您无权察看 2011-11-29 10:10:14 | [全部帖] [楼主帖] 楼主

<P></P><P>产品: Solaris 9 Operating System Solaris 10 Operating System Bug 编号 SUNBUG:4634519 影响 NFS客户端的锁延时恢复可能会导致服务启动,故障转移和切换期间的HA-NFS代理超时。如果受影响资源组的”Failover_Mode”属性设置为”HARD”(默认),受影响的节点可能会自动重新启动。 成因 该问题可能会出现在以下版本中: SPARC Platform Solaris 9 without patch 113278-12 or 116502-03 or 121194-01 Solaris 10 without patch 123336-01 x86 Platform Solaris 9 without patch 116503-03 or 119439-04 or 121195-01 Solaris 10 without patch 123337-01 注释: Solaris 7和Solaris 8不会受到该问题的影响。 该问题只会发生在下面两个条件下 1. 一个”IPV6”地址被配置了一个或多个接口。 可以使用”ifconfig(1M)”命令的”-a”选项来确定一个IPV6地址是否配置了接口: % ifconfig -a lo0: flags=2000849 mtu 8252 index 1 inet6 ::1/128 ce3: flags=2008841 mtu 1500 index 3 ether 0:3:ba:95:ff:9f inet6 fe80::203:baff:fe95:ff9f/10 如果一个IPV6的地址前面有“inet6”的关键字证明他被配置了接口。 注释: Sun Cluster 3.1 9/04 或者更高版本(包括SPARC的117949-01补丁或更高版本,x86的117909-01补丁或更高版本)在集群互联和loopback接口会自动配置IPV6地址。 2.一个或多个无法访问的NFS客户端将会被statd(1M)恢复。 被statd(1M)恢复的客户端包括: Contents of the "/var/statmon/sm" and "/var/statmon/sm.bak" directories on each of the cluster nodes that could host the resource groups containing HA-NFS resources. Contents of the statmon subdirectory of all HA-NFS administrative directories NFS客户端锁的延时恢复可能会导致HA-NFS的启动失败 这样的目录可以使用下面的命令: % scrgadm -pvv | awk \ '/refix:/ { p=$5 } /rce type:.*SUNW.nfs/ { print p "/SUNW.nfs/statmon/sm.bak" }' 注释: 从上面的命令中列出的目录,可以被配置为驻留在整个系统或是故障转移文件。在后一种情况下,每一个这样的目录都会被当前主机节点的错误转移文件检查。 出现的症状: 如果该问题出现,可能在”/var/adm/messages”文件中出现以下信息: host SC[SUNW.nfs:3.1,rg,rs,nfs_svc_start]: [ID 948424 daemon.notice] Stopping NFS daemon /usr/lib/nfs/statd. host SC[SUNW.nfs:3.1,rg,rs,nfs_svc_start]: [ID 828140 daemon.notice] Starting statd and lockd. host SC[SUNW.nfs:3.1,rg,rs,nfs_svc_start]: [ID 530938 daemon.notice] Starting NFS daemon /usr/lib/nfs/statd. host SC[SUNW.nfs:3.1,rg,rs,nfs_svc_start]: [ID 906922 daemon.notice] Started NFS daemon /usr/lib/nfs/statd. host SC[SUNW.nfs:3.1,rg,rs,nfs_svc_start]: [ID 530938 daemon.notice] Starting NFS daemon /usr/lib/nfs/lockd. host statd[246]: [ID 859811 daemon.warning] statd: host ipv4.x.x.x.x is not responding ... host statd[2578]: [ID 766906 daemon.warning] statd: cannot talk to statd at x.x.x.x, RPC: Remote system error(12) host statd[2578]: [ID 766906 daemon.warning] statd: cannot talk to statd at x.x.x.x, RPC: Remote system error(12) host Cluster.RGM.rgmd: Method on resource , resource group , is_frozen=<0>: Method timed out. 在上述消息中注意:”Started NFS daemon /usr/lib/nfs/locked”的启动超时,随后启动方法失败,集群将会尝试完全停止HA-NFS服务。 解决方法: 1. 保存一个”/ect/netconfig”文件。 按照下列编辑”/ect/netconfig”文件的”udp6”和“tcp6”: udp tpi_clts v inet udp /dev/udp - tcp tpi_cots_ord v inet tcp /dev/tcp - udp6 tpi_clts v inet6 udp /dev/udp6 - tcp6 tpi_cots_ord v inet6 tcp /dev/tcp6 – 2. 从客户端列表中手动删除被statd(1M)恢复的客户端(见该列表目录的”Contributing Factor”),只有”sm.bak”目录会保留失效的客户端。在目录中,这些被命名为NFS客户端的主机名或文件会与客户端的IP地址名称或符号链接。(连接到客户端的主机名。) 例如: % ls -l sm.bak lrwxrwxrwx 1 daemon daemon 11 Jan 24 11:38 ipv4.129.147.4.37 -> sr1-ubrm-19 lrwxrwxrwx 1 daemon daemon 8 Dec 30 2003 ipv4.129.152.180.21 -> goldwing lrwxrwxrwx 1 daemon daemon 6 Jul 23 2004 ipv4.129.153.229.34 -> quazar lrwxrwxrwx 1 daemon daemon 8 Jan 24 11:38 ipv4.129.154.156.160 -> ultimate 注释: 应该考虑去清除那些失效一段时间或没有响应的客户端或文件。 该问题已经在以下本版中: SPARC Platform Solaris 9 with patch 113278-12 or 116502-03 or 121194-01 or later Solaris 10 with patch 123336-01 or later x86 Platform Solaris 9 with patch 116503-03 or 119439-04 or 121195-01 or later Solaris 10 with patch 123337-01 or later</P><P></P>



赞(0)    操作        顶端 
总帖数
1
每页帖数
101/1页1
返回列表
发新帖子
请输入验证码: 点击刷新验证码
您需要登录后才可以回帖 登录 | 注册
技术讨论