A GPU (grafikus feldolgozó egység) és a CPU (központi feldolgozó egység) közötti különbség nagyjából olyan, mint egy versenyautó és egy kombájn közötti különbség. Mindkettő erős gép, de másra tervezték őket. Azért tolják a GPU-kat a nyelvi modellekhez, mert ezek a brutális, párhuzamos gépek sokkal gyorsabban és hatékonyabban végzik el azt a rengeteg számítást, amit egy nyelvi modell követel.
A GPU kifejezetten párhuzamos feladatokra van optimalizálva
A nyelvi modellek, például az OpenAI GPT, hihetetlenül sok számítást végeznek egyszerre. Ez azért van, mert ezek a modellek rengeteg mátrixszorzást hajtanak végre (a mátrixok olyan „számhalmazok”, amiket gépek könnyen kezelnek). Egy GPU-nak több ezer apró magja van, és ezek párhuzamosan képesek dolgozni, mintha ezer ember egyszerre írná le ugyanazt a matekpéldát. A CPU ezzel szemben általában csak 4-16 nagy teljesítményű maggal dolgozik, ami kiváló a soros (egymást követő) számításokra, de nem elég gyors az ilyen tömeges
párhuzamosításnál. Szóval a CPU olyan, mint egy okos, de egyedül dolgozó matektanár 😁.
A nyelvi modellek hatalmas mennyiségű adatot mozgatnak
Amikor egy nyelvi modell működik, rengeteg adatot kell feldolgozni (gondolj egy könyvtárnyi szövegre másodpercek alatt). A GPU-k jobban tudják kezelni az ilyen masszív adatmennyiséget, mert gyorsabban tudnak mozgatni és feldolgozni adatokat, mint egy CPU.
Gyorsabb betanítás és inferencia
- Betanítás (training): A nyelvi modelleket rengeteg adaton kell betanítani, ami hetekig vagy hónapokig is eltarthat. Ha ezt CPU-n próbálnánk, annyi ideig tartana, hogy közben a szoftver elavulna. A GPU-k több ezer műveletet végeznek másodpercenként, így a tanulási folyamat drasztikusan felgyorsul.
- Inferencia (amikor választ ad a modell): A nyelvi modellek nem csak tanulás közben számolnak sokat, hanem minden egyes kérdésre adott válasz közben is. Ha CPU-t használnánk, az válaszidő sokkal hosszabb lenne. A GPU itt is gyorsít.
Energiahatékonyság
Meglepő, de a GPU energiahatékonyabb, ha egyszerre sok-sok számítást kell végezni. Egy CPU több energiát fogyasztana, miközben ugyanazokat a feladatokat lassabban végezné el.
Az AI modellek és a GPU-k közös evolúciója
Az AI fejlődésével a GPU-k is egyre jobbá váltak a gépi tanulásra optimalizált feladatokban. Az NVIDIA például kifejezetten ilyen AI-algoritmusokra fejlesztette ki a CUDA nevű platformját, amit az AI-k, köztük a nyelvi modellek, maximálisan kihasználnak. Ez olyan, mint ha a GPU-k már alapból „AI-szakértőnek” születtek volna.
Egyszerű példával megvilágítva
Képzeld el, hogy egy tortát akarsz elkészíteni 100 szelettel.
A GPU olyan, mint ha 100 cukrász egyszerre dolgozna a szeleteken, míg a CPU csak egy profi séf, aki sorban készíti el azokat. Mindkettő elvégzi a munkát, de a GPU egy egész hadseregnyi munkást mozgósít.
Miért nem elég mindig csak a GPU?
Azért nem minden csak GPU, mert vannak feladatok, ahol a CPU egyszerűen jobb, például amikor gyorsan kell váltogatni különböző típusú műveletek között, vagy amikor az operációs rendszert kell irányítani. A CPU afféle „agy”, míg a GPU az „izom”. A kettő együtt dolgozik, hogy az AI és a nyelvi modellek olyan gyorsak és okosak legyenek, mint most.