Machine Learning Flow

Het ontwikkelen van een machine learning model bestaat uit de volgende onderdelen:

Probleemdefinitie
Dataverzameling
Datavoorbereiding
Feature engineering
Dataexploratie
Modelspecificatie
Model training
Model refinement

Zoals geïllustreerd in de onderstaande figuur, vormen deze stappen quasi nooit een strikt sequentieel proces.

1. Probleemdefinitie¶

Deze stap vergt soms reeds een significante inspanning, maar het heeft geen zin om aan een machine learning pad te beginnen zonder een duidelijke aflijning van de vraag die we willen beantwoorden.

2. Dataverzameling¶

Is er geschikte data in voldoende hoeveelheden aanwezig (ook voor latere monitoring)? Kunnen we gebruikmaken van supervised learning (zijn er duidelijke leer-targetdata)?

3. Datavoorbereiding¶

Moet er missing data behandeld worden? Zijn er meetfouten? Moet er annotatie gebeuren?

4. Feature engineering¶

Hoe moeten de variabelen vertaald worden naar geschikte numerieke waarden in de feature matrix?

5. Dataexploratie¶

Visuele en statistische verkenning van patronen in de data.

6. Modelspecificatie¶

Welk model en/of welke architectuur is meest geschikt? Welk leeralgoritme? Welke implementatie?

7. Model training¶

Parameter optimalisatie en evaluatie van het leerproces. Zijn de beoogde patronen geleerd?

Hyper parameter tuning.

Na refinement kan beslist worden om het model te operationaliseren in een productieomgeving. Daarvoor zijn meestal nog aanzienlijke ontwikkeling inspanningen nodig (API development & DevOps). Eens het model effectief in productie gebruikt wordt, is ook nood aan een vorm van model monitoring met gepaste scoring metrics om bijvoorbeeld een model hertraining te realiseren. Dit is het domein van MLOps.