Hailo的首席技術官Avi Baum致力于引領公司的技術發(fā)展和產(chǎn)品創(chuàng)新。此前,他曾在德州儀器(Texas Instruments)擔任無線連接業(yè)務的首席技術官,負責推動物聯(lián)網(wǎng)(IoT)和工業(yè)物聯(lián)網(wǎng)(IIoT)市場中互聯(lián)微控制器(MCU)的戰(zhàn)略規(guī)劃。此外,他還在以色列國防軍擔任過高級架構師和管理職務。
作為一家源自以色列的人工智能芯片企業(yè),Hailo始終專注于為自動駕駛汽車、智能攝像頭及機器人等應用領域,研發(fā)具備高性能與低功耗特性的邊緣人工智能處理器。同時,該公司還提供完備的軟件套件,并依托全球合作伙伴生態(tài)系統(tǒng)提供有力支持。
您能否分享一下,最初是什么吸引您投身于邊緣人工智能領域,以及您早期的工程經(jīng)歷如何影響了您對處理器設計的思考?
我的職業(yè)生涯使我得以深入涉足多個新興市場領域。在任職于半導體行業(yè)領軍企業(yè)德州儀器期間,我曾主導系統(tǒng)級設計與架構工作,負責產(chǎn)品定義部門工作,并隨后出任該部門首席技術官一職。這段寶貴經(jīng)歷激勵我持續(xù)探索那些有望引領未來發(fā)展趨勢的前沿技術。
2017年,在創(chuàng)立Hailo之際,我們深刻認識到,盡管人工智能在云端領域已展現(xiàn)出蓬勃生機,但其同樣具備成為邊緣設備賦能關鍵技術的巨大潛力。基于此,我們明確了發(fā)展方向,并毅然踏上了這條探索之路。
隨著生成式人工智能在邊緣端的拓展,為何每秒萬億次操作(TOPS)不再是評估處理器性能的充分指標?
長期以來,TOPS一直是評估人工智能硬件性能的主要指標。然而,在邊緣生成式人工智能時代,這一指標已顯得力不從心。經(jīng)典模型的核心在于將大量數(shù)據(jù)轉化為有意義的洞察,因此處理輸入數(shù)據(jù)所需的計算量隨著待處理數(shù)據(jù)量的增加而增長。這類模型通常規(guī)模較小,相較于其處理的數(shù)據(jù)量而言,訪問模型參數(shù)所帶來的額外帶寬成本相對較小。
然而,生成式模型的規(guī)模顯著增大,參數(shù)數(shù)量可達數(shù)十億。在這種情況下,內存帶寬成為一個不可忽視的因素。因此,我們不應僅關注TOPS指標,而應著重評估處理器在真實環(huán)境下如何平衡計算與內存資源。關鍵不在于追求最高的計算量,而在于根據(jù)處理器所需處理的工作負載來優(yōu)化架構。
為何在邊緣人工智能工作負載中,內存帶寬如今成為比算力更為關鍵的瓶頸,特別是對于大型語言模型(LLMs)和視覺語言模型(VLMs)而言?
對于邊緣人工智能工作負載,尤其是涉及大型語言模型或視覺語言模型的任務,內存帶寬正迅速成為主要的性能瓶頸。這些模型的參數(shù)規(guī)模通常在5億至80億之間,超出了片上內存的容量,需要依賴片外內存(如動態(tài)隨機存取存儲器DRAM)進行訪問。這大大增加了對內存帶寬的需求。例如,一個擁有10億參數(shù)的模型在標準LPDDR4X接口下,在最佳條件下每秒可生成多達約40個token。然而,若要維持這一速率,一個擁有40億參數(shù)的模型所需的帶寬將是前者的四倍多。若帶寬不足,性能將受到影響,原因并非算力有限,而是處理器無法快速輸入數(shù)據(jù)。這種計算與內存之間的不平衡是邊緣部署生成式人工智能面臨的最緊迫挑戰(zhàn)之一。在逐層計算的架構中,這一問題尤為突出,因為中間結果也會增加內存流量,進一步加劇帶寬壓力。
在為真實的邊緣應用設計產(chǎn)品時,產(chǎn)品團隊應如何重新思考其基準測試策略?
產(chǎn)品團隊應摒棄僅依賴TOPS等單一性能指標的做法,轉而采用能夠反映邊緣部署實際情況的基準測試策略。這首先需要深入理解具體的應用場景、處理器所需處理的實際工作負載,并確定“工作點”,即功率、成本和延遲約束的交集。在此基礎上,評估計算與內存在這些條件下的相互作用。一個擁有高TOPS值的處理器若內存帶寬有限,其性能將大打折扣;同樣,若算力不足,增加內存也無濟于事。
團隊應評估處理器在感知、增強和生成式工作負載等不同任務中的持續(xù)性能表現(xiàn),因為這些任務對處理器的要求各不相同。目標并非優(yōu)化峰值性能指標,而是確保處理器在真實環(huán)境中的各種預期應用場景下都能保持均衡的性能表現(xiàn)。
這是一種從“單一”指標向更復雜方法的自然轉變,反映了平臺的使用方式和評估標準,類似于其他主流架構(如SPEC、Coremark、3DMark等)所經(jīng)歷的轉變。
功率和成本約束如何影響Hailo處理器背后的架構決策,特別是對于面向消費者的邊緣設備而言?
在設計面向邊緣設備的人工智能處理器時,功率和成本是兩個最為關鍵的約束條件,尤其是在面向消費者的產(chǎn)品中。在物聯(lián)網(wǎng)傳感器或智能家居助手等緊湊型設備中,功率預算極為有限,且通常沒有主動冷卻系統(tǒng),因此能效成為至關重要的考量因素。每增加一份計算或內存資源,都會帶來額外的功耗和熱量,直接影響設備的可用性和電池壽命。
成本同樣具有重要影響。消費者設備必須保持在具有競爭力的價格水平,這意味著處理器在達到經(jīng)濟不可行性之前,只能包含有限的TOPS和內存容量。這些約束迫使我們在架構設計上做出艱難的權衡。我們優(yōu)先考慮那些能夠在嚴格的功率和成本限制下,滿足實際應用需求的計算與內存平衡設計,確保邊緣人工智能在廣泛的消費者產(chǎn)品中具有可行性、高效性和可擴展性。
能否詳細介紹一下您如何為應用定義“工作點”,以及為何這在邊緣人工智能部署中如此重要?
定義“工作點”是設計系統(tǒng)時最為關鍵的步驟之一。它指的是功率、成本和延遲約束的交集,這些約束共同決定了在特定部署場景下實際可達到的性能水平。與云端不同,在云端可以通過增加計算或內存資源來解決問題,而邊緣設備則必須在固定的限制條件下運行。這意味著我們必須根據(jù)應用的實際需求做出明智的權衡。例如,物聯(lián)網(wǎng)傳感器可能更注重能效而非原始性能,而自動駕駛系統(tǒng)則可能要求超低延遲,無論功耗如何。一旦確定了工作點,我們就可以評估處理器是否具備滿足這一需求的計算與內存平衡。關鍵不在于在各個方向上最大化性能指標,而在于確保處理器在實際應用條件下能夠保持持續(xù)、可靠的性能表現(xiàn)。
一般來說,工作點是關鍵性能指標達到最優(yōu)的點。若未能做到這一點,可能導致平臺在最典型的使用場景下運行不佳。舉個簡單的例子,有人可能設計出一個在極高分辨率輸入下效率極高的人工智能分析系統(tǒng),但如果該系統(tǒng)被部署在永遠無法達到這一分辨率的系統(tǒng)中,那么這種優(yōu)化就毫無意義。
在現(xiàn)代設備中,視頻、音頻和語言常常融合在一起,您如何針對多模態(tài)模型進行優(yōu)化?
多模態(tài)模型需要精心平衡計算與內存資源。每種模態(tài)對系統(tǒng)的壓力各不相同:視頻處理因高分辨率和幀率而計算密集,而語言和音頻處理則更為緊湊,但對內存帶寬的要求更高。在諸如視覺語言處理等應用中,這種差異尤為明顯:視頻處理推動計算需求,而語言模型則可能迅速遭遇內存瓶頸。
我們通過分析這些工作負載在整個處理流程中的相互作用來進行優(yōu)化,確保處理器架構能夠同時支持它們,避免一種模態(tài)影響另一種模態(tài)的性能表現(xiàn)。
邊緣模型規(guī)模的擴大如何加劇了延遲和功耗問題,系統(tǒng)級架構在解決這些問題中扮演了什么角色?
隨著邊緣模型規(guī)模的擴大,延遲和功耗問題變得更加難以管理。更大的模型更依賴片外內存,這增加了能耗和延遲,尤其是在內存帶寬成為瓶頸的情況下。例如,將模型規(guī)模從10億參數(shù)擴大到40億參數(shù),若要保持相同性能,所需的帶寬將超過四倍。然而,在實際應用中,由于帶寬和系統(tǒng)級約束,性能并不會線性增長。
關鍵不在于擁有高TOPS值或大容量內存,而在于這些組件如何相互作用。平衡的設計確保計算、內存和帶寬能夠高效協(xié)同工作,防止某一資源限制整個系統(tǒng)的性能。
考慮到人工智能模型、工作負載和部署要求的快速發(fā)展,Hailo如何進行未來證明設計?
在邊緣人工智能領域進行未來證明設計,意味著要打造能夠處理各種不斷演變的工作負載的處理器。我們專注于構建平衡的架構,這些架構并非僅針對單一任務進行優(yōu)化,而是能夠支持從感知功能(如目標檢測)到生成式模型(如視覺語言模型)的各種應用。每種類型的工作負載對計算和內存的需求各不相同,因此我們在設計時注重靈活性,避免在不同工作負載之間切換時出現(xiàn)瓶頸。我們還考慮了各種應用在功率、成本和延遲方面的實際限制。通過優(yōu)先考慮工作負載的多樣性和資源的平衡,我們旨在支持下一代邊緣人工智能在消費者和工業(yè)領域的部署。
然而,一種設計無法滿足所有需求,我們的產(chǎn)品組合針對特定的可尋址應用進行了優(yōu)化,并努力在功率、外形尺寸等可用預算范圍內找到最佳“工作點”。
開發(fā)者生態(tài)系統(tǒng)在最大化處理器價值方面發(fā)揮了什么作用,您如何確保團隊能夠充分利用Hailo的能力?
作為一款可編程設備,為開發(fā)者提供易于使用的工具以充分發(fā)揮處理器的潛力、縮短部署路徑并實現(xiàn)新的應用場景至關重要。通過圍繞我們的處理器構建完善的支持環(huán)境,我們幫助團隊在各種應用場景中實現(xiàn)人工智能應用。
對于正在為下一代產(chǎn)品選擇首款人工智能加速器的工程師或首席技術官,您有什么建議?
我認為當前的創(chuàng)新環(huán)境存在著巨大的創(chuàng)新潛力,能夠將我們的想象轉化為實際產(chǎn)品。在快速變化的環(huán)境中,選擇一款能夠實現(xiàn)從概念到部署快速循環(huán)的加速器至關重要。