本發明公開了一種基于深度強化學習的分布式阻塞流水車間調度方法及系統,屬于分布式阻塞流水線調度領域,該方法將一個車間視為一個智能體,每個智能體包括四個深度強化學習網絡:Actor、Critic、targetActor和targetCritic,通過對智能體的訓練獲得Actor的最優網絡參數,使得Actor能夠對智能體是否接收待調度新工件做出使得所有智能體內所有工件總完成時間偏差最小的最優決策;從而在線決策時,只需對Actor輸入智能體的當前觀測值,即可輸出使得所有智能體內所有工件總完成時間偏差最小的最優決策動作。本發明為基于數據驅動的科學決策,決策效率高,適用于各種加工場景,兼容性強。
聲明:
“基于深度強化學習的分布式阻塞流水車間調度方法及系統” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業用途,請聯系該技術所有人。
我是此專利(論文)的發明人(作者)