Onlangs heb ik mijn scriptie afgerond (voor mijn studie toegepaste wiskunde). De titel van mijn scriptie was:
Predicting success in show business
en dat is ook exact wat ik heb onderzocht.
Een korte samenvatting
Theaters moeten doorgaans al een jaar van tevoren al hun voorstellingen boeken voor komend seizoen. Op dat moment is er nauwelijks iets bekend over die voorstelling. Doorgaans weet men alleen het _genre _en de producent/impresario. Het zou dan ook enorm helpen als de programmeurs op basis van data een goede, objectieve inschatting konden maken over de bezoekersaantallen voor een aangeboden voorstelling.
Het doel van mijn onderzoek was dan ook als volgt:
Een model maken waarmee men, op basis van data die beschikbaar is, kan voorspellen hoeveel theaterbezoekers er naar een voorstelling toe zullen komen.
Om dit te bereiken heb ik de belangrijkste variabelen uit de data gehaald en in 5 verschillende statistische technieken gegooid. Hieruit kwamen twee “beste modellen”: het zogenaamde regressiemodel en de beslisboom.
- Het regressiemodel zit gemiddeld 131 tickets naast de échte waarde, maar is heel simpel te gebruiken (voor theatermedewerkers).
- De beslisboom zit gemiddeld 128 tickets naast de échte waarde, maar is (mijns inziens) te complex om door theaters zomaar te worden gebruikt.
De uiteindelijke conclusie is dat het model niet goed genoeg is om de praktijk te gebruiken. (En zeker niet goed genoeg om programmeurs te vervangen.) Maar het is wel accuraat genoeg om als gids of ondersteuning te gebruiken bij bijv. onderhandelingen. Ook geeft het hoop voor toekomstig statistisch onderzoek naar de theaterwereld. Voor zover ik weet is dit namelijk het eerste formele onderzoek naar de theaterwereld!
Mijn aanbeveling is dan ook dat theaters het regressiemodel gebruiken als hulpje, en zelf meer data verzamelen en verder onderzoek doen naar bijvoorbeeld het gedrag en de voorkeuren van theaterbezoekers.
Opmerking: de data die ik heb gebruikt was aan mij gegeven door het Parktheater Eindhoven.
Opmerking: technisch gezien was dit niet mijn “scriptie” (want zo heet het voor master-studenten), maar mijn “bachelor eindproject” (ook wel: BEP). Maar als ik zomaar het woord “BEP” zeg, is iedereen in de war, en denken ze dat ik een slechte imitatie van een dier doe.
Een iets langere samenvatting
Mijn universiteit verplicht iedereen om een “A4-poster” te maken voor hun scriptie. Dit om te oefenen met ons onderzoek samenvatten en stroomlijnen: we hebben immers maar één A4-tje om alles uit te leggen. Ook moeten we hiermee aantonen dat we ons onderzoek in “begrijpelijke taal” aan iedereen kunnen verklaren.
Daarom zal ik bij deze de link geven naar mijn poster: A4-Populair
Het verslag
Alles wat je aan de universiteit maakt is in principe van de universiteit. (Althans, wat je formeel in opdracht van de studie maakt. Als ik toevallig een liedje schrijf terwijl ik op de universiteit zit is dat niet ineens van hen.)
Om die reden mag ik hier niet zomaar het verslag delen. Ik zal wachten tot de universiteit het heeft ingediend, en dan de link geven.
In het verslag staat natuurlijk het hele proces uitgebreid gedocumenteerd. Als een theater geïnteresseerd is in dit onderzoek zelf toepassen, of er vervolgonderzoek op doen, dan raad ik zeker aan om het helemaal te lezen. Anderzijds is het verslag soms te technisch en niet geschreven voor de “gemiddelde persoon”.
Voor die mensen, of mensen die gewoon iets minder tijd hebben, heb ik: SLIDES!
Opmerking: zowel het verslag als de slides zijn in het Engels.
De slides
Als ik een presentatie maak, doe ik dat doorgaans in twee fases: eerst een “lange versie” en dan een “uiteindelijke versie”.
In de lange versie zet ik alles waarvan ik denk dat het belangrijk is om te bespreken. Ook durf ik uit te weiden over sommige onderwerpen, meer tekst/plaatjes/slides te gebruiken, en iets voor de zekerheid extra goed uit te leggen.
Deze lange versie kan men hier vinden:
- PowerPoint: PRESENTATIE
- PDF (zonder notities): PRESENTATIE
Opmerking: lees vooral de notes/notities! Deze leggen alles uit. Zonder die notes kan ik me voorstellen dat de hele presentatie onduidelijk is. (Bijvoorbeeld, op één van de slides staat als bullet point slechts het woord “subsidized”. Zonder uitleg zullen velen zich afvragen waarom “gesubsidieerd” zomaar op een slide verschijnt.)
Het gevolg van zo’n complete uitleg is natuurlijk: de presentatie is te lang! Het valt heel erg mee, hoor, het zijn maar 40 slides (en 9 daarvan zijn om de presentatie zelf leuk te houden). Maar voor een presentatie van hoogstens 20-25 minuten moeten er toch wat (minder relevante) slides af.
De slides die ik heb weggehaald hebben vooral te maken met dingen waarnaar ik onderzoek heb gedaan … maar die uiteindelijk niet belangrijk leken. Zo heb ik wekenlang research gedaan naar bestaand onderzoek om “succes te voorspellen” (bijv. bij films of muziek), maar uiteindelijk slechts de uitkomst van een paar onderzoeken gebruikt als argument voor iets anders. Daarnaast heb ik zelf enkele variabelen verzonnen (zoals “hoeveelheid voorstelling die op dezelfde dag spelen”), die later niet bijzonder invloedrijk bleken.
De korte versie kan men hier vinden:
- PowerPoint: PRESENTATIE
- PDF (zonder notities): PRESENTATIE
Opmerking: de notities zijn hier dus soms incompleet/niet kloppend, omdat ik een deel van het verhaaltje met opzet weg laat. Maar het zal niet veel verschil maken. Deze versie heeft zo’n 37 slides, en hier en daar tekst/plaatjes van slides verwijderd. (Maar, 7 van die slides worden gebruikt voor een experiment tijdens de presentatie, dus die kun je op zich overslaan.)
Conclusie
Ik hoop dat je dit leest en één van de volgende dingen kunt aankruisen:
- Het was interessant om te lezen
- Je werkt bij het theater en kunt er iets mee
- Je speelt zelf in voorstellingen en gaat dit gebruiken om meer te verdienen
- Je weet zeker: wiskunde studeren is iets voor jou!
- Je weet zeker: wiskunde studeren is niks voor jou!
- Je moet binnenkort zelf een scriptie/eindproject doen, en hieraan heb je een voorbeeld
- Je leest alle grapjes hier en daar en begrijpt waarom ik niet serieus genoeg ben om een master te doen.
Om eerlijk te zijn, mijn gevoelens omtrent deze scriptie zijn tweeledig.
Natuurlijk ben ik blij dat ik het eerste (“machine learning”) onderzoek naar de theaterwereld heb gedaan. Ik ben blij dat ik iets voor de theaterwereld kan betekenen, aangezien ik er mijn hele leven half in heb gezeten. Ik ben blij dat het na lang afzien toch afgerond is (hoewel ik nog steeds hier en daar foutjes tegenkom en denk: “aah neee”).
Maar ik ben ook teleurgesteld dat de resultaten niet beter waren. En, achteraf gezien, was het niet verstandig van mij om een scriptie te doen terwijl ik hartstikke ziek was, er geen zin in had, helemaal niet zo goed ben in wiskunde, en dan ook nog eens een onderwerp wil kiezen waar nauwelijks iets van te vinden is.
Maar ach, als je dit leest betekent het dat de scriptie is afgerond, en de presentatie/verdediging succesvol verlopen. Als je dit niet leest is er iets gruwelijk mis gegaan :p