Skip to article frontmatterSkip to article content
Site not loading correctly?

This may be due to an incorrect BASE_URL configuration. See the MyST Documentation for reference.

Input notebookยถ

Algemene instructiesยถ

  • Je geeft je antwoord telkens na de โœ๏ธ. Na de ๐Ÿ”‘ kan je beschrijven hoe je tot dit antwoord kwam (gebruik de cel nummers in de input notebook ter referentie).

  • Er wordt enkel naar de beschrijving bij ๐Ÿ”‘ gekeken indien je antwoord bij โœ๏ธ fout is.

Q1ยถ

โ“ Wat is de target variabele van het ML model?

โœ๏ธ
Het logaritme van de huurprijzen

๐Ÿ”‘
De target variabele wordt in de eerste markdown cel vermeld. Cel 6 geeft de verdeling van de target variabele.

Q2ยถ

โ“ Welke ML modellen worden er gebruikt?

โœ๏ธ

  • Lineaire regressie

  • Extreme Gradient Boosting

๐Ÿ”‘
Cel 26 en 27 bevatten de modeldefinities

Q3ยถ

โ“ Wat zijn de dimensies van de feature matrix?

โœ๏ธ

  • Observaties: 74111

  • Features: 53

๐Ÿ”‘
Cel 23 beschrijft de feature matrix

Q4ยถ

โ“ Met welke soort van data structuur hebben we te maken bij deze features?

โœ๏ธ
Dit is een voorbeeld van gestructureerde data. Iedere observatie komt overeen met waarden voor verschillende variabelen met een vaste, specifieke betekenis.

๐Ÿ”‘
Cel 23 beschrijft de feature matrix

Q5ยถ

โ“ Geef de naam en waarden van minstens twee hyper parameters.

โœ๏ธ

  • n_estimators=100

  • learning_rate=0.1

  • max_depth=6

๐Ÿ”‘
Cel 27: De hyper parameters die bij XGBoost gebruikt worden.

Q6ยถ

โ“ Hoe wordt de data opgedeeld voor de training, validatie en test van de modellen en over hoeveel observaties gaat het in elk deel?

โœ๏ธ

  • Training: 59288 observaties; Deze observaties gebruikt binnen een vijfvoudig cross-validatie schema.

  • Test: 14823 observaties

๐Ÿ”‘
Cel 25: beschrijft de training/test split Cel 26 en 27 bevatten de cross-validatie definities

Q7ยถ

โ“ Met welke soort taak hebben we hier te maken?

โœ๏ธ
Regressie: Het doel is om continue, numerieke waarden te voorspellen.

๐Ÿ”‘

Q8ยถ

โ“ Met welke soort ervaring hebben we hier te maken?

โœ๏ธ
Supervised learning: Voor iedere observatie in de feature matrix wordt de overeenkomstige target waarden aan het model meegegeven.

๐Ÿ”‘

Q9ยถ

โ“ Geef minstens twee voorbeelden van performantiematen (aka score metrics).

โœ๏ธ

  • Mean absolute error

  • Mean squared error

  • R-Squared

๐Ÿ”‘
Deze metrieken worden in Cel 28 berekend.

Q10ยถ

โ“ Stel dat we moeten besparen en we maar drie features mogen gebruiken, welke zouden we moeten kiezen?

โœ๏ธ

  • room_type_Entire home/apt: 0.5896

  • neighborhood_price_level: 0.1311

  • bathrooms: 0.0718

๐Ÿ”‘
Cel 29 visualiseert de feature importances

Q11ยถ

โ“ Welk model type geeft het beste resultaat en op basis waarvan wordt dit bepaald?

โœ๏ธ
Het XGBoost model geeft een veel betere gemiddelde cross-validatie R-squared waarden in vergelijking met het lineaire regressiemodel

๐Ÿ”‘
Cel 27 vergelijkt de R-squared waarden voor de twee modellen