Log In
Or create an account ->
Imperial Library
Home
About
News
Upload
Forum
Help
Login/SignUp
Index
Bevezetés az adatbányászatba
Előszó
1. Bevezetés
Mi az adatbányászat?
Ösztönző kihívások
Az adatbányászat eredete
Adatbányászati feladatok
A könyv témája és szerkezete
Irodalmi megjegyzések
Feladatok
2. Adatok
Adattípusok
Attribútumok és mérésük
Az adatállományok típusai
Adatminőség
A mérés és adatgyűjtés kérdései
Alkalmazásokhoz kapcsolódó kérdések
Az adatok előfeldolgozása
Aggregálás
Mintavétel
Dimenziócsökkentés
Jellemzők részhalmazainak kiválasztása
Jellemzők létrehozása
Diszkretizálás és binarizálás
Változó transzformáció
Hasonlósági és különbözőségi mértékek
Alapok
Egyszerű attribútumok hasonlósága és különbözősége
Adatobjektumok különbözőségei
Hasonlóságok adatobjektumok között
Példák szomszédsági mértékekre
A szomszédság kiszámításának kérdései
A megfelelő szomszédsági mérték kiválasztása
Irodalmi megjegyzések
Feladatok
3. Adatfeltárás
Az Írisz-adathalmaz
Összegző statisztikák
Gyakoriságok és a módusz
Percentilisek
Helyzetmutatók: átlag és medián
A szóródás mérőszámai: terjedelem és variancia
Többváltozós összegző statisztikák
Az adatok összegzésének további módjai
Vizualizáció
Miért érdemes vizualizációt alkalmazni?
Általános fogalmak
Módszerek
Magasabb dimenziójú adatok vizualizációja
Mit tegyünk és mit kerüljünk el?
OLAP-módszerek és többdimenziós adatelemzés
Az Írisz-adatok többdimenziós ábrázolása
Többdimenziós adatok: általános eset
Többdimenziós adatok elemzése
Záró megjegyzések a többdimenziós adatelemzéshez
Irodalmi megjegyzések
Feladatok
4. Osztályozás:Alapfogalmak, döntési fák és modellek kiértékelése
Bevezetés
Az osztályozási probléma megoldásának általános megközelítése
Döntési fa következtetés
Hogyan építsünk döntési fát
Az attribútum tesztfeltételek kifejezésének módszerei
Mérőszámok a legjobb vágás kiválasztására
A döntési fa következtetés algoritmusa
Példa: web-robot észlelés
A döntési fa következtetés jellemzői
Modell túlillesztés
Zaj miatti túlillesztés
Túlillesztés jellegzetes minták hiánya miatt
Túlillesztés és a többszörös összehasonlítási eljárás
Általánosítási hibák becslése
A túlillesztés kezelése döntési fa következtetésnél
Egy osztályozó teljesítményének a kiértékelése
Visszatartó módszer
Véletlen alulmintavételezés
Keresztellenőrzés
Bootstrap
Osztályozók összehasonlításának módszerei
A pontosság becslése konfidencia intervallummal
Két modell teljesítményének az összehasonlítása
Két osztályozó teljesítményének az összehasonlítása
Irodalmi megjegyzések
Feladatok
5. Osztályozás: Alternatív módszerek
Szabályalapú osztályozó
A szabályalapú osztályozó működése
Szabályrendezési sémák
Szabályalapú osztályozó építése
Szabálykinyerés direkt módszerekkel
Szabálykinyerés indirekt módszerekkel
Szabályalapú osztályozók jellemzése
Legközelebbi szomszéd osztályozók
Algoritmus
A legközelebbi szomszéd osztályozó jellemzői
Bayes-féle osztályozók
Bayes-tétel
A Bayes-tétel felhasználása osztályozásra
Naiv Bayes-féle osztályozó
Bayes-féle hibaarány
Bayes-féle bizonyossághálók
Mesterséges neurális hálók
Perceptron
Többrétegű mesterséges neurális hálók
Az ANN jellemzői
Tartóvektor-gép (SVM)
Maximális margójú hipersíkok
Lineáris SVM: szeparálható eset
Lineáris SVM: nem szeparálható eset
Nemlináris SVM
Az SVM jellemzői
Együttes módszerek
Az együttes módszer magyarázata
Módszerek együttes osztályozó építésére
Torzítás-variancia felbontás
Zsákolás
Gyorsítás
Véletlen erdők
Együttes módszerek közötti empirikus összehasonlítás
Az osztály-kiegyensúlyozatlanság problémája
Alternatív metrikák
A vevő működési karakterisztika (ROC) görbe
Költségérzékeny tanulás
Mintavételezés-alapú módszerek
Többosztályos problémák
Irodalmi megjegyzések
Feladatok
6. Asszociációs elemzés: Alapvető fogalmak és algoritmusok
A probléma leírása
Gyakori elemhalmazok előállítása
Az apriori-elv
Gyakori elemhalmazok előállítása az Apriori algoritmussal
Jelöltek előállítása és nyesése
A támogatottsági szint kiszámítása
Számítási bonyolultság
Szabálygenerálás
Megbízhatóságon alapuló nyesés
Szabálygenerálás az Apriori algoritmussal
Példa: kongresszusi szavazási jegyzék
Gyakori elemhalmazok tömör reprezentációja
Maximális gyakori elemhalmaz
Zárt gyakori elemhalmazok
Alternatív módszerek gyakori elemhalmazok előállítására
Az FP-bővítés algoritmus
FP-fa reprezentáció
Gyakori elemhalmazok előállítása az FP-bővítés algoritmussal
Az asszociációs mintázatok kiértékelése
Objektív érdekességi mértékek
A bináris változópárokon túlmutató mértékek
Simpson paradoxona
A támogatottság aszimmetrikus eloszlásának hatása
Irodalmi megjegyzések
Feladatok
7. Asszociációs elemzés: Magas szintű fogalmak
Kategorikus attribútumok kezelése
Folytonos attribútumok kezelése
Diszkretizálás-alapú módszerek
Statisztikán alapuló módszerek
Nem diszkretizálási módszerek
Fogalomhierarchiák kezelése
Szekvenciális mintázatok
A probléma megfogalmazása
Szekvenciális mintázatok feltárása
Időbeli megszorítások
Különböző számítási sémák
Részgráf mintázatok
Gráfok és részgráfok
Gyakori részgráfok bányászata
Apriori-szerű módszer
Jelöltgenerálás
A jelöltek nyesése
A támogatottság kiszámítása
Ritka mintázatok
Negatív mintázatok
Negatívan korrelált mintázatok
A ritka mintázatok, a negatív mintázatok és a negatívan korrelált mintázatok összehasonlítása
Az érdekes ritka mintázatok bányászatának módszerei
Negatív mintázatok bányászatán alapuló módszerek
Várható támogatottságon alapuló módszerek
Irodalmi megjegyzések
Feladatok
8. Klaszteranalízis: Alapvető fogalmak és algoritmusok
Áttekintés
Mit nevezünk klaszteranalízisnek?
A klaszterezés különböző típusai
A klaszterek különböző típusai
-közép módszer
Az alapvető -közép algoritmus
-közép módszer: további kérdések
Kettéosztó -közép módszer
-közép módszer és klaszterek különböző típusai
Erősségek és gyengeségek
A -közép módszer, mint optimalizációs feladat
Összevonó hierarchikus klaszterezés
Alapvető összevonó hierarchikus klaszterező algoritmus
Különleges módszerek
A Lance-Williams formula a klaszterviszony meghatározásához
A hierarchikus klaszterezés legfontosabb kérdései
Előnyök és hátrányok
DBSCAN
Hagyományos sűrűség: a központ-alapú szemlélet
A DBSCAN algoritmus
Előnyök és hátrányok
Klaszter kiértékelés
Áttekintés
Felügyelet nélküli klaszterértékelés kohézió és elkülönülés segítségével
Felügyelet nélküli klaszter kiértékelés a szomszédsági mátrix segítségével
A hierarchikus klaszterezés felügyelet nélküli kiértékelése
A klaszterek helyes számának megállapítása
Klaszterezhetőség
A klaszter érvényesség felügyelt mértékei
A klaszter érvényességi mértékek szignifikanciájának értékelése
Irodalmi megjegyzések
Feladatok
9. Klaszteranalízis: További kérdések és algoritmusok
Az adatok, klaszterek és klaszterező algoritmusok jellemzői
Példa: a -közép és DBSCAN összehasonlítása
Adatjellemzők
Klaszterjellemzők
A klaszterező algoritmusok általános jellemzői
Ütemterv
Prototípus-alapú klaszterezés
Fuzzy klaszterezés
Klaszterezés keverék modellekkel
Önszervező hálók (SOM)
Sűrűség-alapú klaszterezés
Rács-alapú klaszterezés
Altér klaszterezés
DENCLUE: egy magfüggvény alapú séma sűrűség-alapú klaszterezésre
Gráf-alapú klaszterezés
Ritkítás
Minimális feszítőfa klaszterezés
OPOSSUM: ritka hasonlóságok optimális particionálása a METIS segítségével
Chameleon: hierarchikus klaszterezés dinamikus modellezéssel
A közös legközelebbi szomszéd hasonlóság
A Jarvis-Patrick klaszterező algoritmus
SNN sűrűség
SNN sűrűség-alapú klaszterezés
Skálázható klaszterező algoritmusok
Skálázhatóság: általános kérdések és megközelítések
BIRCH
CURE
Mintavétel a CURE-ban
Melyik klaszterező algoritmust válasszuk?
Irodalmi megjegyzések
Feladatok
10. Rendellenességek észlelése
Bevezető
Rendellenességek okai
Rendellenességek észlelésének módszerei
Osztálycímkék használata
Kérdések
Statisztikai megközelítések
Kiugró értékek észlelése egydimenziós normális eloszlásnál
Kiugró értékek a többdimenziós normális eloszlásnál
Keverék modell módszer rendellenesség észlelésre
Erősségek és gyengeségek
Szomszédság-alapú kiugró érték észlelés
Erősségek és gyengeségek
Sűrűség-alapú kiugró érték észlelés
Relatív sűrűség alapú kiugró érték észlelés
Erősségek és gyengeségek
Klaszterezés-alapú eljárások
Az objektumok klaszterhez tartozási mértékének megállapítása
A kiugró értékek hatása a kezdeti klaszterezésre
A használandó klaszterek száma
Erősségek és gyengeségek
Irodalmi megjegyzések
Feladatok
A. A Lineáris algebra
Vektorok
Definíció
Vektorok összeadása és skalárral való szorzása
Vektorterek
Belső szorzat, merőlegesség és merőleges vetítés
Vektorok és adatelemzés
Mátrixok
Definíciók
Mátrixok összeadása és skalárral való szorzása
Mátrixok szorzása
Lineáris transzformációk és inverz mátrixok
Sajátérték és szinguláris érték felbontás
Mátrixok és adatelemzés
Irodalomi megjegyzések
B. Dimenziócsökkentés
PCA és SVD
Főkomponens analízis (PCA)
SVD
További dimenziócsökkentési módszerek
Faktoranalízis
Lokális lineáris beágyazás (LLE)
Többdimenziós skálázás (MDS), FastMap és ISOMAP
Közös szempontok
Irodalmi megjegyzések
C. Valószínűségszámítás és statisztika
Valószínűség
Várható érték
Statisztika
Pontbecslés
A központi határeloszlás-tétel
Intervallumbecslés
Hipotézisvizsgálat
D. Regresszióanalízis
Előzetes fogalmak
Egyszerű lineáris regresszió
A regresszió hibájának vizsgálata
Az illeszkedés hibája
Többváltozós lineáris regresszió
Alternatív legkisebb négyzetes regressziós módszerek
E. Optimalizáció
Feltétel nélküli optimalizálás
Numerikus módszerek
Feltételes optimalizálás
Egyenletekkel adott feltételek
Egyenlőtlenségekkel adott feltételek
F. Irodalomjegyzék
← Prev
Back
Next →
← Prev
Back
Next →