Gestructureerde data - Machine Learning Cursussen

Input notebook¶

Algemene instructies¶

Je geeft je antwoord telkens na de ✍️. Na de 🔑 kan je beschrijven hoe je tot dit antwoord kwam (gebruik de cel nummers in de input notebook ter referentie).
Er wordt enkel naar de beschrijving bij 🔑 gekeken indien je antwoord bij ✍️ fout is.

Q1¶

❓ Wat is de target variabele van het ML model?

✍️
Het logaritme van de huurprijzen

🔑
De target variabele wordt in de eerste markdown cel vermeld. Cel 6 geeft de verdeling van de target variabele.

Q2¶

❓ Welke ML modellen worden er gebruikt?

✍️

Lineaire regressie
Extreme Gradient Boosting

🔑
Cel 26 en 27 bevatten de modeldefinities

Q3¶

❓ Wat zijn de dimensies van de feature matrix?

✍️

Observaties: 74111
Features: 53

🔑
Cel 23 beschrijft de feature matrix

Q4¶

❓ Met welke soort van data structuur hebben we te maken bij deze features?

✍️
Dit is een voorbeeld van gestructureerde data. Iedere observatie komt overeen met waarden voor verschillende variabelen met een vaste, specifieke betekenis.

🔑
Cel 23 beschrijft de feature matrix

Q5¶

❓ Geef de naam en waarden van minstens twee hyper parameters.

✍️

n_estimators=100
learning_rate=0.1
max_depth=6

🔑
Cel 27: De hyper parameters die bij XGBoost gebruikt worden.

Q6¶

❓ Hoe wordt de data opgedeeld voor de training, validatie en test van de modellen en over hoeveel observaties gaat het in elk deel?

✍️

Training: 59288 observaties; Deze observaties gebruikt binnen een vijfvoudig cross-validatie schema.
Test: 14823 observaties

🔑
Cel 25: beschrijft de training/test split Cel 26 en 27 bevatten de cross-validatie definities

Q7¶

❓ Met welke soort taak hebben we hier te maken?

✍️
Regressie: Het doel is om continue, numerieke waarden te voorspellen.

🔑

Q8¶

❓ Met welke soort ervaring hebben we hier te maken?

✍️
Supervised learning: Voor iedere observatie in de feature matrix wordt de overeenkomstige target waarden aan het model meegegeven.

🔑

Q9¶

❓ Geef minstens twee voorbeelden van performantiematen (aka score metrics).

✍️

Mean absolute error
Mean squared error
R-Squared

🔑
Deze metrieken worden in Cel 28 berekend.

Q10¶

❓ Stel dat we moeten besparen en we maar drie features mogen gebruiken, welke zouden we moeten kiezen?

✍️

room_type_Entire home/apt: 0.5896
neighborhood_price_level: 0.1311
bathrooms: 0.0718

🔑
Cel 29 visualiseert de feature importances

Q11¶

❓ Welk model type geeft het beste resultaat en op basis waarvan wordt dit bepaald?

✍️
Het XGBoost model geeft een veel betere gemiddelde cross-validatie R-squared waarden in vergelijking met het lineaire regressiemodel

🔑
Cel 27 vergelijkt de R-squared waarden voor de twee modellen