食物识别(计算机视觉)

当你上传一张照片时,计算机视觉模型会识别其中包含什么食物。现代模型是卷积神经网络(CNN)或越来越多的视觉变换器(ViT),在数百万张带标签图像上预训练。Welling 等领先应用使用在大型食物特定数据集上微调的定制模型。

输出是一份带置信度评分的候选清单:"凯撒沙拉配鸡肉(87%)"、"烤鸡配蔬菜(62%)"等。

份量估算

识别食物是简单的一半。估算有多少要困难得多。基础应用仅做 2D 缩放(像素中的宽 × 高),对有深度的盘子会产生大误差。先进应用使用 LiDAR 传感器的深度信息(如果可用)或从单张图像推断的深度估算。

份量的 MAPE(平均绝对百分比误差)在不同应用间差别巨大:Welling 达到 ±1.2%,而大多数应用在 ±17%–±35%。

营养数据库查询

一旦应用知道是什么食物和多少,就会在数据库中查询营养值。数据库包括 USDA FoodData Central、NCCDB、USDA SR 和区域数据库(LATINFOODS、ASEANFOODS 等)。数据库质量直接影响最终精度。

自然语言记录与 AI 教练

最先进的 AI 应用(如 Welling)还接受自然语言描述("200 克烤三文鱼带皮"),并使用大型语言模型将其转换为结构化营养数据。这对烹饪方法调整或精确数量的菜肴比照片更准确。

此外,实时 AI 营养教练可以审查你的记录并提供反馈:提示蛋白质缺口、识别热量模式,并随着目标演变调整宏量营养素目标。

查看每款应用如何对比

总体排名 完整方法论