本說明書實施例提供一種實現隱私保護的更新強化學習系統的方法,其中強化學習系統包括服務端和N個客戶端,服務端部署強化學習模型的公共神經網絡,N個客戶端中各自部署該強化學習模型的線程神經網絡,并各自搭建業務環境,其中強化學習模型用于針對業務環境預測業務動作。在該方法中,每個客戶端利用其部署的線程神經網絡獨立地與其搭建的業務環境進行交互,并利用交互數據計算梯度數據,再對梯度數據進行加密后傳輸至服務端,服務端對每個客戶端傳輸的加密數據進行匯總解密,得到對應于多個梯度數據的梯度和值,用以集中更新公共神經網絡的模型參數。如此,可以在防止客戶端中本地隱私數據被泄露的同時,實現多個客戶端聯合訓練強化學習模型。
聲明:
“實現隱私保護的更新強化學習系統的方法及裝置” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業用途,請聯系該技術所有人。
我是此專利(論文)的發明人(作者)