<meter id="hh1nh"></meter>
<th id="hh1nh"><em id="hh1nh"><delect id="hh1nh"></delect></em></th>

        <form id="hh1nh"></form>

          <listing id="hh1nh"><nobr id="hh1nh"></nobr></listing>
          <nobr id="hh1nh"></nobr>

            <th id="hh1nh"><form id="hh1nh"><font id="hh1nh"></font></form></th>
            <rp id="hh1nh"><progress id="hh1nh"></progress></rp>
            您所在的位置:首頁 - 科學研究 - 科研動態

            科研動態

            機器學習和GPU加速晶體管級電路仿真中的稀疏線性求解器:綜述論文

            中文題目:機器學習和GPU加速晶體管級電路仿真中的稀疏線性求解器:綜述論文

            論文題目:Machine learning and GPU accelerated sparse linear solvers for transistor-level circuit simulation: a perspective survey (Invited paper)

            錄用期刊/會議:29th Asia and South Pacific Design Automation Conference (CCF-C)

            原文DOI:10.1109/ASP-DAC58780.2024.10473846

            原文鏈接:https://doi.org/10.1109/ASP-DAC58780.2024.10473846

            作者列表

            1) 金   洲
            中國石油大學(北京)信息科學與工程學院 計算機科學與技術系教師

            2) 李文豪 中國石油大學(北京)信息科學與工程學院 計算機技術 碩22

            3) 柏一諾 中國石油大學(北京)信息科學與工程學院 電子信息工程 本19

            4) 王騰程 中國石油大學(北京)信息科學與工程學院 計算機技術 碩21

            5) 魯一澄 中國石油大學(北京)信息科學與工程學院 電子信息工程 本19

            6) 劉偉峰 中國石油大學(北京)信息科學與工程學院 計算機科學與技術系教師

            背景與動機:

            SPICE電路仿真中求解稀疏線性系統不僅占據了大部分的仿真時間,電路尺寸的快速增加也進一步加劇了稀疏線性求解器需要更多的執行時間和內存資源。因此,高性能稀疏線性求解器成為加速電路仿真和驗證的關鍵。近年來,AI技術的蓬勃發展和硬件能力的不斷增強為加速稀疏線性求解提供了新的機會。本文提供了對這些技術進步的總覽,同時也探討了目前面對的挑戰和未來機遇。

            主要內容:

            在稀疏LU分解的預處理階段采用不同的行列重排序方法會對性能有不同的影響(如圖1)。對此,Ganqu Cui等人結合支持向量機和神經網絡提出了一種基于AI來分析并選擇最佳重排序方案的算法。但目前所有現有的基于AI的策略通常都是從現有方法中的選擇最佳替代方案。利用半監督或無監督學習為矩陣生成特定的最優重排序方法在未來是非常有前途的方向。

            電路仿真矩陣采用不同重排序方法的性能比較


            在稀疏LU分解的數值分解階段采用不同類型的矩陣乘法也會產生不同的性能(如圖2)。TengCheng Wang提出了一種配備隨機森林的密度感知自適應矩陣乘法以對不同的子矩陣塊選擇性能最優的矩陣乘法,來加速稀疏LU分解。

            不同階電路矩陣上GEMMSpMM的比較


            利用GPU加速計算內核方面,Piyush Sao等人開發了一種將小型密集BLAS操作聚合為一個較大操作的策略(如圖3)。Xu Fu等人在其開發的求解器PanguLU中使用規則的2D分塊策略,將其與決策樹相結合后將部分內核放在GPU上實現相對加速。然而,結合矩陣特征來實現進一步的加速仍然具有挑戰性。



            3 GPU加速計算內核的方法


            利用GPU加速任務調度方面,Jianqi Zhao等人在GPU上提出SFLU利用無同步通信策略來充分利用GPU資源(如圖4)。但當矩陣尺寸較小或列之間存在較強依賴性時,如何有效地將計算和調度策略結合起來,充分利用GPU的算力仍然是一個具有挑戰性的問題。

            4 SFLU算法示例


            利用分布式異構平臺進行加速方面,Patrick R. Amestoy等人開發的求解器MUMPS利用異步通信和動態任務調度在Multifrontal方法中進行加速。Xu Fu等人在異構分布式平臺上提出的PanguLU利用多種分塊稀疏BLAS方法來提高GPU的效率、利用無同步通信策略降低總體延遲成本。

            實驗結果及分析:

            表1展示了幾種稀疏直接法解法器并在圖5中對其數值分解的性能進行了對比。當矩陣規模、矩陣列之間的依賴關系、計算平臺不同時,這些求解器的性能優劣關系都會產生變化。因此結合矩陣特征并充分利用計算平臺來進一步優化LU分解是一個巨大的挑戰。


            表1 幾種稀疏直接求解器總覽




            不同解法器的數值分解時間對比


            我們進一步對比了在32節點128GPU分布式集群上SuperLU_DIST和PanguLU(如圖6)。雖然分布式方法具有并行加速的潛力,但由此產生的開銷仍不可忽略,利用具有異構處理器的大規模超級計算機提高可擴展性以及降低具有不規則稀疏結構依賴性的進程之間的同步和通信成本仍然是一個巨大的挑戰。



            6 SuperLU_DISTPanguLU128A100GPU上的性能對比

            通訊作者簡介:

            金洲,中國石油大學(北京)信息科學與工程學院./人工智能學院計算機系副教授,入選北京市科協青年人才托舉工程、校青年拔尖人才。主要從事集成電路設計自動化(EDA)、面向科學計算的DSA軟硬件協同設計等方面的研究工作。主持并參與國家自然科學基金青年項目、重點項目,科技部重點研發微納電子專項、高性能計算專項青年科學家項目,國家重點實驗室開放課題、企業橫向課題等。在DAC、TCAD、TODAES、SC、PPoPP、IPDPS、TCAS-II、ASP-DAC等重要國際會議和期刊上發表40余篇高水平學術論文。

            聯系方式:jinzhou@cup.edu.cn


            99亚洲综合精品