因?yàn)閷I(yè)
所以領(lǐng)先
我們說AI芯片,一般是泛指所有用來加速AI應(yīng)用,特別是基于神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)應(yīng)用的硬件,它可以是一顆獨(dú)立的芯片,也可以是芯片中的模塊,其基本技術(shù)都是相關(guān)的。
綜合來說,AI計(jì)算的需求爆炸性增長(zhǎng),而通用處理的處理能力很難提升,這中間就出現(xiàn)一個(gè)很明顯的gap。所以,一個(gè)很直接的想法就是,如果通用處理器不能滿足AI計(jì)算的需求,我們是否可以設(shè)計(jì)針對(duì)AI計(jì)算的專用處理器呢?答案當(dāng)然是肯定的。這也就是領(lǐng)域?qū)S糜?jì)算的概念。
一般來說,一個(gè)領(lǐng)域是不是適合開發(fā)專用的處理器有兩個(gè)條件,第一是這個(gè)領(lǐng)域的應(yīng)用需求足夠大,有很強(qiáng)的動(dòng)力驅(qū)動(dòng)相應(yīng)的研發(fā)投入;第二是這個(gè)領(lǐng)域的計(jì)算模式限定在一個(gè)較小的集合,這樣我們才有可能用專用硬件來對(duì)這些特定的運(yùn)算進(jìn)行加速。AI領(lǐng)域正好滿足這兩個(gè)條件。因此,我們說AI芯片設(shè)計(jì)是一個(gè)典型的領(lǐng)域?qū)S糜?jì)算問題,也就是domain specific computing。
圖的右半部分就是軟件開發(fā)的工作和相應(yīng)的工具。細(xì)節(jié)內(nèi)容我就不展開講了,感興趣的朋友可以看看我的公眾號(hào)上關(guān)于專用處理器的文章。這里我只想強(qiáng)調(diào)一點(diǎn),就是我們?cè)O(shè)計(jì)一個(gè)專用處理器,往往需要設(shè)計(jì)新的指令集架構(gòu),編程模型,甚至是新的編程語言。這也意味著我們可能沒有現(xiàn)成的軟件工具可以使用,我們?cè)谠O(shè)計(jì)和優(yōu)化新的硬件的同時(shí),必須打造新的軟件工具鏈。只有提供全棧的軟硬件,才能讓用戶特別是開發(fā)者利用好新硬件的能力。這個(gè)也是專用處理器設(shè)計(jì)的一個(gè)巨大挑戰(zhàn)。
對(duì)GEMM的加速效果是受很多因素影響的。首先要有大量的運(yùn)算單元,這個(gè)相對(duì)比較容易,但即使有了大量的運(yùn)算單元,如果數(shù)據(jù)不能有效的供給到GEMM引擎,則它理論上計(jì)算能力再?gòu)?qiáng)也發(fā)揮不出來。這也是為什么我們經(jīng)??吹紸I芯片宣傳的峰值運(yùn)算能力很強(qiáng),但跑實(shí)際網(wǎng)絡(luò)的有效算力就差了很多。此外,還有很多需要做架構(gòu)優(yōu)化和權(quán)衡的問題。比如可編程性。值得一提的是,一直強(qiáng)調(diào)自己是從做硬件之前就開始做軟件工具的。從實(shí)際展示的結(jié)果來看,芯片利用率還是比較高的,這個(gè)應(yīng)該是硬件架構(gòu)比較平衡,軟件工具比較完善才可能做到的。
下面我們看一下展示的達(dá)芬奇AI處理器架構(gòu),它吸取了過去幾年AI硬件加速的經(jīng)驗(yàn),融合向量,標(biāo)量和矩陣的的運(yùn)算。3D Cube:16*16*16三維彈性立方體,可在一個(gè)時(shí)鐘周期內(nèi)完成4096個(gè)FP16 MAC運(yùn)算。而這個(gè)核通過不同的配置,可以作為 幾十毫瓦的IP到支持幾百瓦的芯片,的不同場(chǎng)景,比如高能效的Ascend 310到算力最強(qiáng)的Ascend 910。
當(dāng)然,這幾年AI芯片的熱潮也給我們帶來一些很有意思的,比較特殊的架構(gòu)。比如,Grophcore的IPU是一個(gè)大規(guī)模并行,同構(gòu)眾核架構(gòu)。最基本的硬件處理單元是IPU-Core,它是一個(gè)SMT多線程處理器,可以同時(shí)跑6個(gè)線程,更接近多線程CPU。芯片上有一千多個(gè)小的這種通用處理器核。同時(shí),芯片沒有外部存儲(chǔ),而是實(shí)現(xiàn)了300M左右的片上存儲(chǔ),這個(gè)也是很少見的。
如果總結(jié)一下這幾年AI計(jì)算加速在產(chǎn)業(yè)的發(fā)展,簡(jiǎn)單來說就是無芯片不AI。從云到邊到端的各種場(chǎng)景都需要AI運(yùn)算能力,因此也都需要AI加速。但是在不同的場(chǎng)景下,對(duì)AI加速的需求又有很大差別。
這個(gè)例子里面中間一列,我們看到目前業(yè)界應(yīng)用最多的軟件棧。硬件基于Nvidia GPU,軟件是基于CUDA。正好Nvidia剛剛發(fā)布了新的AI軟硬件產(chǎn)品,我們不妨展開來看一下。
A100是7nm工藝,使用HBM2存儲(chǔ)器接口,3D封裝,整體性能有大幅提升。具體來說,Tensor Core支持更多的數(shù)據(jù)類型,特別是AI中常用的數(shù)據(jù)類型,支持固定結(jié)構(gòu)的2:4稀疏化處理。FP16/BF16的峰值處理能力是312TFLOPS,INT8的峰值處理能力是624TOPS,如果是稀疏處理的情況,則最高性能翻倍。近幾年很多AI芯片初創(chuàng)公司都說自己的芯片硬件性能比Nvidia GPU高幾倍,不過現(xiàn)在看來,即使單看硬件,A100的指標(biāo)也是最強(qiáng)的。
在A100的基礎(chǔ)上,整個(gè)硬件產(chǎn)品線也做了升級(jí),從顯卡到云服務(wù)器到邊緣服務(wù)器到自動(dòng)駕駛和智能機(jī)器平臺(tái),非常完整。
芯片封裝清洗:
合明科技研發(fā)的水基清洗劑配合合適的清洗工藝能為芯片封裝前提供潔凈的界面條件。
水基清洗的工藝和設(shè)備配置選擇對(duì)清洗精密器件尤其重要,一旦選定,就會(huì)作為一個(gè)長(zhǎng)期的使用和運(yùn)行方式。水基清洗劑必須滿足清洗、漂洗、干燥的全工藝流程。
污染物有多種,可歸納為離子型和非離子型兩大類。離子型污染物接觸到環(huán)境中的濕氣,通電后發(fā)生電化學(xué)遷移,形成樹枝狀結(jié)構(gòu)體,造成低電阻通路,破壞了電路板功能。非離子型污染物可穿透PC B 的絕緣層,在PCB板表層下生長(zhǎng)枝晶。除了離子型和非離子型污染物,還有粒狀污染物,例如焊料球、焊料槽內(nèi)的浮點(diǎn)、灰塵、塵埃等,這些污染物會(huì)導(dǎo)致焊點(diǎn)質(zhì)量降低、焊接時(shí)焊點(diǎn)拉尖、產(chǎn)生氣孔、短路等等多種不良現(xiàn)象。
這么多污染物,到底哪些才是最備受關(guān)注的呢?助焊劑或錫膏普遍應(yīng)用于回流焊和波峰焊工藝中,它們主要由溶劑、潤(rùn)濕劑、樹脂、緩蝕劑和活化劑等多種成分,焊后必然存在熱改性生成物,這些物質(zhì)在所有污染物中的占據(jù)主導(dǎo),從產(chǎn)品失效情況來而言,焊后殘余物是影響產(chǎn)品質(zhì)量最主要的影響因素,離子型殘留物易引起電遷移使絕緣電阻下降,松香樹脂殘留物易吸附灰塵或雜質(zhì)引發(fā)接觸電阻增大,嚴(yán)重者導(dǎo)致開路失效,因此焊后必須進(jìn)行嚴(yán)格的清洗,才能保障電路板的質(zhì)量。
合明科技運(yùn)用自身原創(chuàng)的產(chǎn)品技術(shù),滿足芯片封裝工藝制程清洗的高難度技術(shù)要求,打破國(guó)外廠商在行業(yè)中的壟斷地位,為芯片封裝材料全面國(guó)產(chǎn)自主提供強(qiáng)有力的支持。
推薦使用合明科技水基清洗劑產(chǎn)品。