為轉型變壓器網絡做好準備
?專家說,變壓器網絡的注意力機制“將真正打破研究的大門”。
有一些顆粒狀的鏡頭需要增強,或者你需要發現一種神奇的藥物?無論任務如何,答案都越來越可能是變壓器網絡形式的人工智能。
變形金剛,就像那些熟悉網絡的人喜歡簡寫的那樣,是 Google Brain 于 2017 年發明的,并被廣泛用于自然語言處理 (NLP)。但現在,它們正在擴展到幾乎所有其他人工智能應用,從計算機視覺到生物科學。
Transformer 非常擅長在非結構化、未標記的數據中尋找關系。他們還擅長生成新數據。但是為了有效地生成數據,transformer 算法通常必須增長到極端的比例。訓練語言模型 GPT3 具有 1750 億個參數,估計成本在 1100 萬美元到 2800 萬美元之間。那就是訓練一個網絡,一次。并且變壓器尺寸沒有顯示出任何平穩的跡象。
變壓器網絡拓寬視野
?
伊恩·巴克(來源:英偉達)
是什么讓變壓器在如此廣泛的任務中如此有效?
Nvidia 加速計算總經理 兼副總裁 Ian Buck 向 EE Times 解釋 說,雖然早期的卷積網絡可能會查看圖像中的相鄰像素以找到相關性,但 Transformer 網絡使用一種稱為“注意”的機制來查看更遠的像素從彼此。
“注意力集中在遠程連接上:它的目的不是查看鄰居在做什么,而是識別遠程連接并優先考慮這些連接,”他說。“[變形金剛]如此擅長語言的原因是因為語言充滿了上下文,這些上下文不是關于前一個單詞,而是[依賴于]句子中前面說過的東西——或者把那個句子放在整個上下文中段落。”
對于圖像,這意味著轉換器可用于 上下文化像素或像素組。換句話說,轉換器可用于在圖像的其他位置尋找具有相似大小、形狀或顏色的特征,以嘗試更好地理解整個圖像。
“卷積很棒,但你經常不得不構建非常深的神經網絡來構建這些遠程關系,”巴克說。“變形金剛縮短了這一點,因此他們可以用更少的層更智能地做到這一點。”
變壓器考慮的連接越遠,它就越大,而且這種趨勢似乎還沒有結束。Buck 提到了考慮句子中的單詞,然后是段落中的句子,然后是文檔中的段落,然后是整個互聯網語料庫中的文檔的語言模型。
?
一旦他們理解了語言,transformer 網絡就可以學習任何有足夠文本的主題,通過閱讀來有效地吸收知識。不同類型的轉換器也可用于計算機視覺和圖像生成。作者使用 Craiyon.com(以前稱為 Dall-E Mini)創建了這些圖像,這是一個生成的預訓練變壓器網絡,使用提示“變壓器機器人正在閱讀大量真實照片”。(來源:Craiyon.com/EE Times)
到目前為止,變壓器尺寸似乎沒有理論上的限制。巴克說,對 5000 億個參數模型的研究表明,它們還沒有接近過擬合的程度。(當模型有效地記憶訓練數據時,就會發生過擬合。)
“這是人工智能研究中的一個活躍問題,”巴克說。“還沒有人想出來。這只是勇氣的問題,”他開玩笑說,并指出讓模型變大并不像添加更多層那么簡單。需要大量的設計工作和超參數調整。
但是,可能存在實際限制。
“模型越大,你需要訓練的數據就越多,”巴克說,并指出所需的大量數據也必須是高質量的,以確保語言模型不會在不相關或不適當的內容上進行訓練,以及過濾出重復。對數據的要求可能是未來變壓器規模的限制因素。
Nvidia 的 Hopper GPU 架構認識到超大型網絡的趨勢, 包括一個轉換器引擎 - 一種硬件和軟件功能的組合,可在保持準確性的同時實現更高的吞吐量。Buck 認為,像 Hopper 這樣的平臺通過允許較小的基礎設施訓練更大的網絡來解決訓練變壓器的經濟限制。
應用比比皆是
變形金剛可能是從語言開始的,但它們正被應用于計算機視覺和藥物發現等不同領域。一個引人注目的用例是醫學成像,其中轉換器可用于生成用于訓練其他 AI 的合成數據。