Korpusz (corpus) — Az AI „olvasott anyaga"

A korpusz az AI tanításához használt szöveggyűjtemény. Minősége és összetétele meghatározza, mit tud és milyen torzításokat hordoz a kész modell.

Mit jelent a korpusz?

A korpusz (latinul corpus, „test"; többes szám corpora) az AI-ban — különösen az NLP területén — egy strukturált szöveggyűjteményt jelent, amelyet egy modell tanításához használunk. Más szóval: ez az AI „olvasott anyaga".

Egy korpusz lehet:

Általános — pl. az egész Wikipedia, vagy a Common Crawl (az internet jelentős részének mentése)
Specifikus — pl. egy iparág összes szakmai cikke, egy cég összes ügyfél-e-mailje, egy korszak szépirodalma

A klasszikus LLM-ek — GPT, Claude, Gemini — több ezer milliárd token nagyságú korpuszon tanultak (hozzávetőleg az emberiség írott örökségének jelentős része).

Miért fontos?

A korpusz minősége és összetétele közvetlenül határozza meg a kész modell képességeit:

Méret: több adat = jobb teljesítmény (ld. „scaling laws") — egy ponton azonban diminishing returns lép fel.
Minőség: zajos, helyesírási hibás, sok szemét tartalom korpuszon tanított modell kevésbé pontos. Ezért a modern LLM-ek gondosan szűrt korpuszon tanulnak.
Sokféleség: ha a korpusz csak egy nyelvre (pl. angolra) korlátozódik, a modell magyarul gyenge lesz. Ha csak egy időszakra (pl. 2010-előtti szövegekre), a modell nem ismer modern fogalmakat.
Torzítás: a korpuszban rejlő algoritmikus torzítások megjelennek a modellben is. Ha a korpusz dominánsan férfi szerzőktől származik, a modell női perspektíváját gyengébb lesz.

A korpusz a modell „neveltetése" — minden, amit tud és minden, amit elhisz, innen származik.

Üzleti példa

Egy 40 fős magyar pénzügyi tanácsadó cég saját AI asszisztenst akart, amely a magyar adójogszabályok alapján segít az ügyfeleknek.

A kihívás: egy általános LLM (mint a ChatGPT) gyengén ismeri a magyar adójogot — kevés magyar adójogszabály és NAV-iránymutatás található meg az általa használt korpuszban.

A megoldás: egy célzott korpusz építése.

Az utolsó 5 év NAV-iránymutatásai
A teljes APEH/NAV ítélkezési gyakorlat
Az adótörvények és kommentárok
A cégen belüli precedens-esetek (anonimizált formában)

Ezt a korpuszt nem a modell alaptanításához használták (az ezerszer drágább lenne), hanem RAG-architektúrával kötötték rá az LLM-re. Az AI így minden válasznál a saját korpuszra támaszkodik — magyar adójogi pontosságot ad, miközben kihasználja az LLM általános nyelvi képességeit.

Mit kell tudni egy cégvezetőnek?

Három pont:

A korpusz a tudás forrása. Ha azt szeretnéd, hogy egy AI a te szakmai területeden értő legyen, össze kell raknod hozzá a megfelelő korpuszt — ez gyakran az AI-projekt legidőigényesebb és legfontosabb része.
A korpusz nem statikus. Egy 2024-ben tanított modell nem tud a 2025-ös változásokról. Ezért egyre több cég használ olyan architektúrát, amely dinamikusan kapcsolódik egy folyton frissülő korpuszhoz (pl. RAG, vektoradatbázis).
Adatvédelmi kérdések. Ha a saját korpuszodat egy harmadik fél AI-szolgáltatójához küldöd (pl. OpenAI), adatvédelmi és üzleti titok kockázat áll fenn. Ezért egyre több vállalat választ saját szerveren futó vagy európai adatközpontban tárolt megoldásokat.

A korpusz minősége határozza meg az AI-projekt minőségét. „Show me your corpus and I'll tell you what your model can do."