本發明公開了一種異常處理方法、裝置以及集群系統。其中,該方法包括:確定批處理集群中的異常批處理節點,其中,異常批處理節點為超過心跳健康檢測的超時時間仍未響應的批處理節點;對異常批處理節點進行驗證,得到驗證結果;依據驗證結果,確定異常批處理節點的故障轉移,其中,故障轉移為將未處理完的批處理作業轉移到非異常批處理節點繼續處理。本發明解決了現有技術方案通常不能很好解決分布式環境下批處理所面臨的節點“假死”問題,導致分布式批處理故障轉移間接失效,不能提供穩定可靠的分布式批處理服務的技術問題。
聲明:
“異常處理方法、裝置以及集群系統” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業用途,請聯系該技術所有人。
我是此專利(論文)的發明人(作者)