Wie wir testen: unser Benchmark-Protokoll über 15.000 Mahlzeiten

Bilder

Aufbau der Bibliothek

15.000 Fotos in 10 Küchenkategorien × 3 Schwierigkeitsstufen. Fotos werden bei standardisierter Beleuchtung (5500 K, 800 lx), aus konsistenten Winkeln (45° und vertikal) und mit Referenzobjekt (Kreditkarte oder Gabel) für den visuellen Maßstab aufgenommen. Jedes Gericht wird zweimal fotografiert: angerichtet und zur Mitte der Mahlzeit (zur Prüfung der Teilerkennung).

Wiegen

Referenzgrundlage festlegen

Jede Komponente eines Gerichts wird vor dem Anrichten separat auf kalibrierten Waagen (Genauigkeit ±0,1 g) gewogen. Das ergibt das exakte Gewicht jeder Zutat. Die Nährwerte werden aus USDA FoodData Central und verifizierten regionalen Datenbanken (LATINFOODS, CIQUAL usw.) berechnet.

Validierung

Statistische Analyse

Jedes Foto wird 3× an jede App geschickt, der Median dient als Endwert. Das eliminiert die Varianz eines Einzelversuchs. Wir berechnen 95-%-Konfidenzintervalle für jede Metrik. Die Erkennungsrate nutzt die Top-1-Metrik (die zuversichtlichste Vorhersage). MAPE wird über alle 15.000 Fotos berechnet, um statistische Signifikanz zu sichern.