本發明公開了一種意圖驅動的強化學習路徑規劃方法,主要步驟包括:1、數據采集器獲取監測網絡的狀態;2、根據環境障礙物、傳感器節點和數據采集器的位置選擇數據采集器的轉向角;3、根據ε貪心策略選擇數據采集器的速度、目標節點和下一目標節點作為動作;4、數據采集器根據選擇的轉向角和速度確定下一時隙的位置;5、根據數據采集器和傳感器節點的意圖得到獎賞和懲罰,并更新Q值;6、重復執行步驟1至步驟5,直至到達終止狀態或收斂條件;7、數據采集器選擇每一時隙Q值最大的動作作為規劃結果,生成最佳路徑;本發明提出的方法可以以較高的成功概率、更接近意圖的性能完成數據采集路徑規劃。
聲明:
“意圖驅動的強化學習路徑規劃方法” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業用途,請聯系該技術所有人。
我是此專利(論文)的發明人(作者)