Névleges entitás felismerő (Named Entity Recognition)

Mi az a névleges entitás felismerő?

A névleges entitás felismerő (angolul: Named Entity Recognition, röviden NER) egy olyan természetes nyelvfeldolgozó technológia, amely azonosítja és kategorizálja a szövegben előforduló „entitásokat” – például személyneveket, helyszíneket, szervezeteket, dátumokat vagy pénzösszegeket.

A NER feladat célja, hogy strukturálatlan szövegből strukturált adatot hozzon létre, amely gépi feldolgozásra alkalmas. Ez különösen hasznos olyan AI-alkalmazásokban, ahol fontos a szövegben található konkrét információk automatikus felismerése és feldolgozása.

Hogyan működik?

  1. Szöveg elemzése: a modell feldolgozza a bemeneti szöveget
  2. Entitások azonosítása: megtalálja az entitásokat (pl. „Budapest”, „Google”)
  3. Kategorizálás: címkézi őket a megfelelő típus szerint (pl. hely, szervezet)

Példa:

  • „A Google 2023-ban Budapesten nyitott irodát.” →
    • Google: Szervezet
    • 2023: Dátum
    • Budapest: Helyszín

Mire használható?

  • Keresőmotorok optimalizálása
  • Ügyfélszolgálati chatbotok
  • Dokumentumfeldolgozás és -kivonatolás
  • Orvosi, pénzügyi vagy jogi szövegek elemzése
  • Tudásbázisok automatikus építése

Módszerek

  • Szabályalapú megközelítés (pl. szótárak)
  • Gépi tanulási modellek (pl. CRF, SVM)
  • Mélytanulásos modellek (pl. BERT, GPT-alapú rendszerek)

Összefoglalva

A névleges entitás felismerés (NER) kulcsszerepet játszik abban, hogy a mesterséges intelligencia rendszerek megértsék és hasznosítsák a szövegben rejlő konkrét információkat. Létfontosságú a természetes nyelvfeldolgozás fejlettebb alkalmazásaiban.