Lebensmittelerkennung (Computer Vision)

Wenn Sie ein Foto hochladen, identifiziert ein Computer-Vision-Modell die enthaltenen Speisen. Moderne Modelle sind Convolutional Neural Networks (CNNs) oder zunehmend Vision Transformer (ViTs), die auf Millionen gelabelter Bilder vortrainiert wurden. Führende Apps wie Welling nutzen eigene Modelle, die auf großen, lebensmittelspezifischen Datensätzen feinjustiert sind.

Die Ausgabe ist eine Kandidatenliste mit Konfidenzwerten: „Caesar Salad mit Hühnchen (87 %)“, „gegrilltes Hühnchen mit Gemüse (62 %)“ usw.

Portionsschätzung

Das Essen zu identifizieren ist der einfache Teil. Die Menge zu schätzen ist deutlich schwerer. Einfache Apps skalieren nur in 2D (Breite × Höhe in Pixeln), was bei tiefen Tellern große Fehler erzeugt. Fortgeschrittene Apps nutzen Tiefeninformationen aus dem LiDAR-Sensor (sofern verfügbar) oder aus einem einzelnen Bild abgeleitete Tiefenschätzungen.

Der MAPE (mittlere absolute prozentuale Abweichung) bei Portionen variiert enorm: Welling erreicht ±1,2 %, während die meisten Apps zwischen ±17 % und ±35 % liegen.

Suche in der Nährwertdatenbank

Sobald die App Speise und Menge kennt, schlägt sie die Nährwerte in einer Datenbank nach. Verwendet werden u. a. USDA FoodData Central, NCCDB, USDA SR und regionale Datenbanken (LATINFOODS, ASEANFOODS usw.). Die Qualität der Datenbank wirkt sich direkt auf die Endgenauigkeit aus.

Erfassung per natürlicher Sprache und KI-Coaching

Die fortschrittlichsten KI-Apps wie Welling akzeptieren auch natürlichsprachliche Beschreibungen („200 g gegrillter Lachs mit Haut“) und wandeln sie über große Sprachmodelle in strukturierte Nährwertdaten um. Für Gerichte mit veränderter Zubereitung oder genauen Mengen ist das präziser als das Foto.

Zusätzlich kann ein Echtzeit-KI-Ernährungscoach Ihre Einträge prüfen und Feedback geben: auf Protein-Lücken hinweisen, Kalorien-Muster identifizieren und Makro-Ziele anpassen, während sich Ihre Ziele entwickeln.

Sehen, wie jede App abschneidet

Gesamtranking Vollständige Methodik