動態學習環境中遷移專家場景的PlipPlop算法-科研動態-中國石油大學（北京）人工智能學院

學校主頁

您所在的位置：首頁 - 科學研究 - 科研動態

科研動態

動態學習環境中遷移專家場景的PlipPlop算法

日期：2025-04-28 | 訪問量：

中文題目：動態學習環境中遷移專家場景的PlipPlop算法

論文題目：The PlipPlop algorithm for migrating expert scenarios in dynamic learning environments

錄用期刊/會議：CCC2025 （CAA A類會議）

錄用時間：2025.1.2

作者列表：

1)宋宇中國石油大學（北京）人工智能學院自動化系教師

2)周佳佳中國石油大學（北京）人工智能學院控制科學與工程研18級

3)代思怡中國石油大學（北京）人工智能學院控制科學與工程研23級

4)劉建偉中國石油大學（北京）人工智能學院自動化系教師

摘要:

首先，我們選擇相對熵損失函數作為自適應權值動態更新工具，用于獲取遷移專家學習場景的后悔上界。其次，參考在線觸發器算法的討論，推導了如何自適應地動態調整學習速率。我們也得到了學習率的上界。最后將學習率的上界轉化為后悔函數的上界，討論了如何在后悔函數上得到一個更小的上界，實現超參數的自適應調整。

主要內容:

定理:假定, ,

這里,

Theorem 10: 假定, 權重服從：

這里

比較序列具有k次遷移:

權值更新算法

具有下列后悔上界:

這里,

結論:

本文將2014年De Rooij等人提出的在線觸發器算法應用于遷移專家，討論了學習率的優化和調整對學習效果的影響。遷移專家場景在不同的區域有不同的模型，所以我們首先使用混合權重更新公式來討論在線學習中的遷移場景，通過混合前一刻的權重，很大程度上可以減少遷移帶來的損失，從而得到一個新的誤差上界?；旌蠙嘀馗鹿娇梢越鉀Q稀疏復雜模型的問題，該方法對許多真實數據集非常有效。同時，考慮到在遷移場景中，很難在不同的學習階段給出一個最優的學習速率，在線觸發器算法可以通過調整相同概率分布產生的數據或不同概率分布產生的數據的學習率來獲得更好的學習效果，因此，觸發器算法為本文的討論提供了完整的理論基礎。我們討論了損失函數和近似損失函數之間的差來設置學習率的切換條件，學習率可以實時地選擇和切換，以實現遷移專家場景中學習率的調整。實驗結果進一步驗證了將觸發器算法應用于遷移專家在線學習，可以獲得更小的后悔上界。

作者簡介:

劉建偉，教師。