Hoe we testen: ons benchmarkprotocol van 15.000 maaltijden

Afbeeldingen

De bibliotheek bouwen

15.000 foto's in 10 keukencategorieën × 3 moeilijkheidsniveaus. De foto's worden genomen onder gestandaardiseerde verlichting (5500K, 800 lux), vanuit consistente hoeken (45° en van bovenaf), met een referentieobject (creditcard of vork) voor visuele schaal. Elk gerecht wordt twee keer gefotografeerd: opgemaakt en halverwege de maaltijd (om gedeeltelijke herkenning te testen).

Wegen

Ground truth vaststellen

Elk onderdeel van het gerecht wordt apart gewogen op gekalibreerde weegschalen (precisie ±0,1 g) vóór het opdienen. Dit geeft het exacte gewicht van elk ingrediënt. De voeding wordt berekend uit USDA FoodData Central en geverifieerde regionale databases (LATINFOODS, CIQUAL, enz.).

Validatie

Statistische analyse

Elke foto wordt 3× naar elke app gestuurd, met de mediaan als eindscore. Dit elimineert variantie van één enkele poging. We berekenen 95%-betrouwbaarheidsintervallen voor elke metriek. Herkenningsratio gebruikt de top-1-metriek (de meest betrouwbare voorspelling). MAPE wordt berekend over alle 15.000 foto's om statistische significantie te waarborgen.