Corpus

Mi az a corpus?

A corpus (ejtsd: korpusz) egy nagyméretű, rendszerezett szöveggyűjtemény, amelyet gyakran használnak nyelvészeti, mesterséges intelligencia és természetes nyelvfeldolgozási (NLP) célokra. A corpus tartalmazhat könyveket, cikkeket, weboldalakat, párbeszédeket, közösségi média bejegyzéseket vagy bármilyen más szöveges adatot.

A mesterséges intelligenciában, különösen a nagy nyelvi modellek (LLM-ek) és chatbotok tanításakor a corpus kulcsfontosságú, hiszen ezek a rendszerek ebből az adathalmazból tanulják meg a nyelv szerkezetét, szabályszerűségeit, és az emberi kommunikáció mintázatait.

Milyen típusú corpusok léteznek?

  • Általános nyelvi corpus: Sokféle témát és stílust tartalmaz (pl. Wikipedia, könyvek)
  • Szakterületi corpus: Specifikus területhez kapcsolódik, pl. orvosi, jogi vagy műszaki szövegek
  • Párbeszédes corpus: Beszélgetések, chatüzenetek, ügyfélszolgálati interakciók
  • Multimodális corpus: Szöveg mellett tartalmaz képeket, hangot vagy videót is

Hogyan használja az AI a corpusokat?

  • Tanításra: Az AI modellek a corpusban található szövegek alapján tanulják meg a nyelvi összefüggéseket
  • Finomhangolásra: Egy meglévő modell továbbképzése speciális célokra, pl. orvosi tanácsadó
  • Értelmezésre: A corpus segít az AI-nak kontextusban értelmezni egy kérdést vagy kérést

Példák ismert corpusokra

  • Common Crawl: Több milliárd weboldalt tartalmazó, nyilvánosan elérhető adatgyűjtemény
  • Wikipedia dump: A Wikipedia teljes szöveges tartalmát tartalmazó állomány
  • OpenSubtitles: Filmek és sorozatok feliratai, párbeszédelemzéshez ideális
  • COCA (Corpus of Contemporary American English): Nyelvészeti kutatásokhoz használt amerikai angol nyelvű corpus

Összefoglalva

A corpus egy strukturált szöveggyűjtemény, amely lehetővé teszi a mesterséges intelligencia számára, hogy nyelvi mintázatokat, szabályokat és jelentéstartalmakat tanuljon meg. Minél sokszínűbb és nagyobb a corpus, annál hatékonyabban tud fejlődni a modell.