Input notebookยถ
Algemene instructiesยถ
Je geeft je antwoord telkens na de โ๏ธ. Na de ๐ kan je beschrijven hoe je tot dit antwoord kwam (gebruik de cel nummers in de input notebook ter referentie).
Er wordt enkel naar de beschrijving bij ๐ gekeken indien je antwoord bij โ๏ธ fout is.
Q1ยถ
โ Wat is de target variabele van het ML model?
โ๏ธ
Het logaritme van de huurprijzen
๐
De target variabele wordt in de eerste markdown cel vermeld. Cel 6 geeft de verdeling van de target variabele.
Q2ยถ
โ Welke ML modellen worden er gebruikt?
โ๏ธ
Lineaire regressie
Extreme Gradient Boosting
๐
Cel 26 en 27 bevatten de modeldefinities
Q3ยถ
โ Wat zijn de dimensies van de feature matrix?
โ๏ธ
Observaties: 74111
Features: 53
๐
Cel 23 beschrijft de feature matrix
Q4ยถ
โ Met welke soort van data structuur hebben we te maken bij deze features?
โ๏ธ
Dit is een voorbeeld van gestructureerde data. Iedere observatie komt overeen met waarden voor verschillende variabelen met een vaste, specifieke betekenis.
๐
Cel 23 beschrijft de feature matrix
Q5ยถ
โ Geef de naam en waarden van minstens twee hyper parameters.
โ๏ธ
n_estimators=100learning_rate=0.1max_depth=6
๐
Cel 27: De hyper parameters die bij XGBoost gebruikt worden.
Q6ยถ
โ Hoe wordt de data opgedeeld voor de training, validatie en test van de modellen en over hoeveel observaties gaat het in elk deel?
โ๏ธ
Training: 59288 observaties; Deze observaties gebruikt binnen een vijfvoudig cross-validatie schema.
Test: 14823 observaties
๐
Cel 25: beschrijft de training/test split
Cel 26 en 27 bevatten de cross-validatie definities
Q7ยถ
โ Met welke soort taak hebben we hier te maken?
โ๏ธ
Regressie: Het doel is om continue, numerieke waarden te voorspellen.
๐
Q8ยถ
โ Met welke soort ervaring hebben we hier te maken?
โ๏ธ
Supervised learning: Voor iedere observatie in de feature matrix wordt de overeenkomstige target waarden aan het model meegegeven.
๐
Q9ยถ
โ Geef minstens twee voorbeelden van performantiematen (aka score metrics).
โ๏ธ
Mean absolute error
Mean squared error
R-Squared
๐
Deze metrieken worden in Cel 28 berekend.
Q10ยถ
โ Stel dat we moeten besparen en we maar drie features mogen gebruiken, welke zouden we moeten kiezen?
โ๏ธ
room_type_Entire home/apt: 0.5896neighborhood_price_level: 0.1311bathrooms: 0.0718
๐
Cel 29 visualiseert de feature importances
Q11ยถ
โ Welk model type geeft het beste resultaat en op basis waarvan wordt dit bepaald?
โ๏ธ
Het XGBoost model geeft een veel betere gemiddelde cross-validatie R-squared waarden in vergelijking met het lineaire regressiemodel
๐
Cel 27 vergelijkt de R-squared waarden voor de twee modellen