WOG: Machine Learning for Data Mining and its Applications

Periode

Van 1 januari 2002 tot 31 december 2006.

Omschrijving

Vandaag is machine learning (ML) een uiterst actief onderzoeksdomein uit de computerwetenschappen in het algemeen en de kunstmatige intelligentie in het bijzonder met nieuwe ontwikkelingen op het gebied van de leertechnieken zelf, de methodologie, de theorie en het gebruik van deze technieken voor datamining toepassingen zoals we die o.a. vinden in de bioinformatica en tekstmining. Zo bestaan er machine learning technieken om aan classificatie, regressie, voorspelling en clustering te doen. Voorbeelden hiervan zijn verschillende neural netwerk architectures, case-based reasoning of nearest neighbor classification, inductive logic programming, induction of decision trees, evolutionary computation techniques, Bayesian learning, enz. Deze technieken laten toe om uit grote hoeveelheden data bruikbare kennis af te leiden, m.a.w. om aan datamining te doen. Het toepassingsgebied is quasi onbeperkt gaande van de bovenstaande toepassingen tot bijvoorbeeld customer relation management waar men geinteresseerd is in klantenprofielen, klantenevaluatie, etc.

Nieuwe ontwikkelingen in ML zijn er zowel op het gebied van de technieken zelf, de methodologie, de theorie en de toepassingen. Recente leertechnieken zijn support vector machines en andere kernel-based methods naast Bayesian learning. Daarnaast wordt er momenteel ook veel aandacht besteed aan hoe vergelijkende experimenten tussen verschillende technieken methodologisch correct moet worden aangepakt. Bovendien worden theoretisch kaders, zoals o.a. statistical learning theory, statistical pattern recognition en computational learning theory, verder ontwikkeld. Deze theorieen laten toe om belangrijke vragen te formuleren en dieper inzicht te krijgen in de betreffende problemen: Hoe bekomen we maximale generalisatie?, Hoe selecteren we de data (sampling)?, Wat is het nut van het minimum description length principle of Occam's razor in ML?, enz. Tot slot zien we een grote vraag naar ML-technieken in verschillende domeinen zoals de bioinformatica en tekstmining waar enorme hoeveelheden data beschikbaar zijn waaruit men bruikbare kennis wil afleiden. Vandaag worden hiervoor al verschillende ML-technieken gebruikt. Kennis van deze toepassingsdomeinen is uiterst belangrijk om tot kwalitatief goede resultaten te komen. Deze kennis laat o.a. toe om het leermechanisme d.m.v. domeinkennis te sturen.

Deze recente ontwikkelingen hebben al tot een aantal nieuwe en diepe inzichten geleid naast nieuwe vragen. Bijvoorbeeld zowel empirisch (vergelijkende studies zoals StatLog) als theoretisch (het No Free Lunch Theorem) is aangetoond dat er geen superieure leertechniek bestaat die beter is dan alle andere voor alle toepassingen. Dit geeft aanleiding tot nieuwe fundamentele vragen zoals: Hoe kunnen we verschillende technieken combineren om tot het best mogelijke resultaat te komen?, en Hoe kunnen we aan meta-learning doen, m.a.w. is het mogelijk om te leren welke techniek de beste is voor welk probleem?

Uit het voorgaande moet blijken dat machine learning uiterst interdisciplinair van karakter is en best op een geintegreerde manier wordt aangepakt. De theorie maakt o.a. gebruik van de logica, de waarschijnlijkheidsrekening, de theorie van stochastische processen, de functionaalanalyse, de beslissingstheorie enzovoort. Bovendien kunnen theoretische, methodologische en praktische ontwikkelingen niet los van elkaar worden gezien. Bijvoorbeeld gaf de praktijk aanleiding tot het aanpassen van bestaande leertechnieken om grote hoeveelheden data te kunnen behandelen en tot theoretische vragen zoals het behandelen van ruis op de data of ontbrekende gegevens. En tot slot is een diep inzicht vereist in het toepassingsdomein om tot een goed resultaat te komen, bijvoorbeeld de keuze van de attributen die worden gebruikt om aan classificatie te doen of het incorporeren van domeinkennis zijn heel belangrijk voor de kwaliteit van het eindresultaat.

Coordinator

Prof. Bernard MANDERICK
Free University Brussels
Computational Modeling (COMO)
Pleinlaan 2
B - 1050 BRUSSELS (BELGIUM)
E-mail: bmanderi_NOSPAM_@vub.ac.be
Internet: http://como.vub.ac.be