記一起由ORACLE心跳引起的生產庫故障
瀏覽量: 次 發布日期:2023-10-14 12:12:02
記一起由ORACLE心跳引起的生產庫故障
環境描述:
節點
sid
db_name
software_version
備注
172.16.2.22
hdls1
HDLS
11.2.0.4
rac節點
172.16.2.23
hdls2
HDLS
11.2.0.4
rac 節點
事件原因:
兩個節點的心跳網絡異常,導致RAC腦裂,中斷了節點運行的oracle實列進程,數據庫服務宕掉。
宿遷數據恢復檢查發現兩臺oracle實例進程中止,無法正常連接。
恢復23節點,保證業務作業可正常進行,排查22節點故障。等待作業完成處理。重啟22節點后,23節點的數據服務恢復正常
無錫數據恢復檢查23節點的數據庫服務狀態
1、EVMD日志
通過上面的日志可以看出,兩個節點之間心跳網絡通信異常,不能各自獲取對端節點的信息,導致oracle實例進程中止。
2、系統日志
通過上述日志可以看出eno3心跳網口狀態一直在DOWN和UP之間循環,狀態不穩定。
由于心跳網絡故障,兩節點無法正常通信,22:30,23節點實例中斷,23:38,23節點數據庫服務恢復。等業務作業運行結束后,對心跳線進行更換,更換心跳6類線。22節點嘗試啟動數據庫服務,成功。srvctl start instance -d HDLS -i hdls1監聽狀態[grid@hdls01 ~]$ srvctl status listener
Listener LISTENER is enabled
Listener LISTENER is running on node(s): hdls01,hdls02數據庫實例狀態
檢查rac集群服務
檢查數據庫
1、節點之間連接心跳網絡的網線有問題,導致心跳網絡異常,RAC節點之間不能正常通信,腦裂,ORACLE的服務被中止。RAC集群為了保證一致性和完整性,在心跳網絡異常的情況下,會發生腦裂,ORACLE實例會被強制中止。