Mi az az önfelügyelt tanulás?
Az önfelügyelt tanulás (angolul: Self-supervised Learning) egy mesterséges intelligencia tanulási módszer, amelyben a modell saját magának generál címkéket vagy felügyeleti jeleket a tanuláshoz, külső kézi címkézés nélkül. Ez a megközelítés hidat képez a felügyelt és a felügyelet nélküli tanulás között.
A modell megtanulja felismerni az adatok belső struktúráját úgy, hogy előrejelzési vagy kitöltési feladatokat végez rajtuk. Ez különösen hasznos akkor, amikor nagy mennyiségű címkézetlen adat áll rendelkezésre, de a manuális címkézés költséges vagy időigényes lenne.
Hogyan működik?
- Pretext-feladatok: a modell mesterséges tanulási feladatokat kap (pl. egy mondat hiányzó szavának kitalálása)
- Jellemzők tanulása: a modell a feladatok megoldása során megtanulja az adatok belső szerkezetét
- Finomhangolás: a betanított modellt később felügyelt módon tovább lehet képezni specifikus feladatokra
Példa:
- Egy NLP-modell megtanulja előrejelezni a következő szót egy szövegben (pl. „A macska felugrott a ___”).
Hol használják?
- Nagy nyelvi modellek (pl. GPT, BERT)
- Képfeldolgozás (pl. kontextus kiegészítés)
- Hangfeldolgozás (pl. hiányzó hangminták rekonstrukciója)
- Genomika, időbeli adatsorok feldolgozása
Előnyök és kihívások
Előnyök:
- Nincs szükség kézi címkézésre
- Hatékony nagy adathalmazokon
- Általános jellemzők tanulása, amelyek újrahasznosíthatók más feladatokra
Kihívások:
- A pretext-feladat megválasztása kritikus
- Lehet, hogy nem mindig ad elégséges jellemzőtanulást specifikus feladatokhoz
Összefoglalva
Az önfelügyelt tanulás lehetővé teszi, hogy AI-modellek kevesebb kézi beavatkozással tanuljanak meg komplex adatstruktúrákat. Ez az egyik kulcstechnológia a modern generatív modellek és LLM-ek mögött.