一種基于多智能體深度強化學習的車聯網邊緣緩存方法,通過以下步驟實現,第1、系統模型與數學模型的構建;第2、建立基于多智能體的執行者?評價家結構的協同內容分發的邊緣緩存策略。本發明首先采用Zipf分布請求內容,每個智能體根據自己的策略網絡及其過程中的噪聲選擇相應動作并執行,之后判斷是否超出緩存,超出則刪除流行度較低內容。然后,每個智能體獲得環境獎勵,獲得新的觀測空間,并將相應數據放入經驗池中。最后,更新每個智能體的目標網絡參數。結果表明本方法所提出的車聯網邊緣緩存方案與其他方法相比,在減少內容內容分發過程中的時延、提高內容命中率和成功率方面有較好的表現。
聲明:
“基于多智能體深度強化學習的車聯網邊緣緩存方法” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業用途,請聯系該技術所有人。
我是此專利(論文)的發明人(作者)