A következő címkéjű bejegyzések mutatása: mesterséges intelligencia. Összes bejegyzés megjelenítése
A következő címkéjű bejegyzések mutatása: mesterséges intelligencia. Összes bejegyzés megjelenítése

2026. május 1., péntek

A paradigmaválasztás eldönti a projektet

A felügyelt és felügyelet nélküli tanulás a gépi tanulás két alapvető paradigmája – és a köztük lévő választás nem technikai részletkérdés, hanem a projekt sorsát eldöntő korai döntés. A felügyelt tanulás (supervised learning) akkor alkalmazható, ha minden adatponthoz ismert a kívánt kimenet: a modell egy tanító adatkészlet alapján tanulja meg, hogyan következtessen új bemenetekre. A felügyelet nélküli tanulás (unsupervised learning) ezzel szemben ott lép be, ahol az emberi irányítás hiányzik – a cél nem egy előre meghatározott válasz megközelítése, hanem az adatok belső logikájának, csoportjainak vagy rendhagyó mintázatainak megtalálása. A leggyakoribb tévesztés: az algoritmus neve ismerős volt, nem a probléma típusa vezette a döntést. Ez a szöveg ahhoz ad keretet, hogy az olvasó a probléma természetéből induljon ki – ne az eszközből.

Tünde egy törökbálinti raktárlogisztikai projekten dolgozott, amikor először szembesült a kérdéssel. Volt egy terjedelmes tranzakciós adatbázisa – csomagok, időbélyegek, kezelők, útvonalak –, és az a feladata, hogy „valami hasznosat csináljon belőle gépi tanulással". Megnézett néhány videót, elolvasott pár cikket. A random forest neve ismerős volt, a k-means is csengett valamit. Elkezdett dolgozni.
Három héttel később derült ki, hogy a megközelítés eleve alkalmatlan volt a problémájára. Nem az implementáción csúszott el. A paradigmaválasztáson.
Ez nem figyelmetlenség kérdése. Ez a mező egyik leggyakoribb belépési hibája.

Amit a probléma típusa eldönt
A felügyelt gépi tanulás lényege egyszerűen megfogalmazható: a modell olyan adatból tanul, amelyben minden bemenethez ismert kimenet tartozik. A tanító adatkészlet tartalmazza a „helyes válaszokat" – és a modell feladata, hogy megtanulja, hogyan jusson el a bemenettől ezekhez a válaszokhoz. Ha egy gyártósori képfelismerő rendszert tanítanak be arra, hogy felismerje a hibás termékeket, minden képhez meg kell mondani, hogy hibás-e vagy sem. Ezt hívják klasszifikációnak, és ez a felügyelt tanulás egyik legtisztább alkalmazása.
A tanítóadat-alapú modellezés ereje pontosan ebben rejlik: ha tudod, mit keresel, a modell megtanulja megtalálni.
De mi van, ha nem tudod?
Tünde esetében senki sem mondta meg előre, hogy mi számít „gyanús" csomagnak. Nem volt előre definiált hibakategória. Az adatban rejtett mintázatokat kellett feltárni – olyanokat, amelyek emberi szemmel nem nyilvánvalóak, és amelyekhez nem létezett előre megcímkézett tanítóanyag.
Ez a felügyelet nélküli tanulás természetes terepe.
A felügyelet nélküli megközelítés nem egy előre meghatározott kimenet felé tanít, hanem az adatok belső struktúráját tárja fel. A klaszterezés például – ami a leggyakoribb ilyen technika – csoportokat keres az adatban anélkül, hogy bárki megmondaná, hány csoportnak kell lennie, vagy mi alapján kellene csoportosítani. Az anomália-detekció ugyanebből a logikából dolgozik: nem azt tanulja meg, mi a „normális" – hanem azt azonosítja, ami kirí a mintázatból.
Ami Tündének valójában kellett: a szokatlan tranzakciók kiszűrése egy ismeretlen, strukturálatlan adathalmazból.
Felügyelet nélküli megközelítés. Nem felügyelt.

Mi a különbség a felügyelt és a felügyelet nélküli tanulás között a gépi tanulásban?
A felügyelt tanulás előre ismert, címkézett kimenetekből épít prediktív modellt – a modell azt tanulja meg, hogyan következtessen új bemenetekre a meglévő példák alapján. A felügyelet nélküli tanulás ezzel szemben emberi irányítás nélkül tárja fel az adatok belső struktúráját: csoportokat, mintázatokat, rendhagyó eseteket keres anélkül, hogy valaki megmondaná, mit kell találnia. A kettő között nem az adatmennyiség, hanem a probléma típusa dönti el a választást: ha tudjuk, mit keresünk, felügyelt; ha nem, felügyelet nélküli megközelítés a helyes.

A gödöllői campuson az egyik kutatócsoport pontosan ugyanebbe a dilemmába futott bele, amikor drónfelvételekből próbáltak növénybetegségeket azonosítani. Az első ösztön az volt: klaszterezzük a képeket, hadd derüljön ki, milyen csoportok vannak. Logikusnak tűnt. Az adatban mégis kiszámíthatatlan, egymásba csúszó halmazok jöttek létre, amelyekből nem lehetett döntési határt húzni.
A probléma típusa végül eldöntötte a kérdést. Mivel a betegségtípusok ismertek voltak, és volt elegendő előzetesen megcímkézett mintafelvétel, a klasszifikáció – vagyis a felügyelt tanulás – volt az egyetlen ésszerű út. A modell megtanulta, mi számít levélfoltosodásnak, mi penésznek, és mi normális elszíneződésnek.
Nem az adatmennyiség döntötte el. A kérdés típusa.

A határesetek, ahol a választás nem egyértelmű
A valóság persze nem mindig ilyen tiszta. Tünde projektje sem zárul le a raktárlogisztikai anomália-detekcióval – a rendszer következő lépése az lesz, hogy a feltárt szokatlan mintázatokat valaki manuálisan átnézi, megcímkézi, majd ezek alapján felügyelt modellt tanítanak be.
Ez a semi-supervised learning logikája.
Akkor célszerű ezt a megközelítést választani, ha kevés a megcímkézett adat, de nagy mennyiségű megcímkézetlen adat áll rendelkezésre. A félúton lévő megoldás csökkenti a kézi adatcímkézés költségét – ami logisztikai projekteknél nem elhanyagolható szempont –, miközben nem mond le a felügyelt tanulás prediktív erejéről. A kettő nem egymás helyett, hanem egymás után működik.
Adorján, aki Tündével együtt dolgozik a projekten, egy másik logikai hibába szaladt bele. Úgy gondolta: mivel most semi-supervised megközelítést alkalmaznak, az azt jelenti, hogy „a modell majd kitalálja magától, mit kell csinálni". Nem ezt jelenti. A semi-supervised tanulás nem csökkenti az emberi döntés súlyát – csak áthelyezi azt: a manuális munka nem a teljes adatbázisra, hanem egy reprezentatív mintára koncentrálódik.
A paradigma sosem dolgozik helyetted. Keretet ad a munkádhoz.

A felügyelt és felügyelet nélküli tanulás a gépi tanulás két alapvető paradigmája, amelyek között a választást nem az adatmennyiség, hanem a probléma természete dönti el. Ha ismerjük a kívánt kimenetet – például azt, hogy egy gyártósori képen hibás-e a termék –, felügyelt tanulást alkalmazunk: a modell egy előre megcímkézett tanító adatkészletből sajátítja el a döntési határokat. Ha viszont nem tudjuk előre, milyen struktúrák rejtőznek az adatban – például raktárlogisztikai tranzakciók között szokatlan mintázatokat keresünk –, a felügyelet nélküli megközelítés, például klaszterezés vagy anomália-detekció a természetes választás. A két paradigma nem egymás versenytársa: más típusú kérdésre válaszol.

Van még egy harmadik irány, ami nem helyettesíti a fenti kettőt, hanem egy teljesen más tanulási logikát képvisel. A megerősítéses tanulás (reinforcement learning) esetén nem adatból tanul a modell, hanem visszajelzésből: cselekszik, értékeli az eredményt, és a következő döntését ez alapján módosítja. Útvonaloptimalizálásnál – ahol egy raktári rendszernek dinamikusan kell alkalmazkodnia a változó körülményekhez – ez a megközelítés kerülhet képbe. De ez már egy másik paradigma. Nem a felügyelt és felügyelet nélküli tanulás spektrumán helyezkedik el, hanem azon kívül.
A keret tágabb, mint a két fő paradigma.

Ha még nem egyértelmű, melyik megközelítés illik a saját projektedhez, ez az egy lépés elvégezhető döntés nélkül is: töltsd le az ingyenes paradigma-döntési térképet, amely három kérdés alapján megmutatja, hogy az adott probléma felügyelt, felügyelet nélküli vagy semi-supervised megközelítést kíván-e. Nincs regisztráció, nincs kötelezettség – csak egy strukturált gondolatmenet, amit azonnal lehet alkalmazni.