食物識別(計算機視覺)

當你上傳一張照片時,計算機視覺模型會識別其中包含什麼食物。現代模型是卷積神經網路(CNN)或越來越多的視覺變換器(ViT),在數百萬張帶標籤影象上預訓練。Welling 等領先應用使用在大型食物特定資料集上微調的定製模型。

輸出是一份帶置信度評分的候選清單:"凱撒沙拉配雞肉(87%)"、"烤雞配蔬菜(62%)"等。

份量估算

識別食物是簡單的一半。估算有多少要困難得多。基礎應用僅做 2D 縮放(畫素中的寬 × 高),對有深度的盤子會產生大誤差。先進應用使用 LiDAR 感測器的深度資訊(如果可用)或從單張影象推斷的深度估算。

份量的 MAPE(平均絕對百分比誤差)在不同應用間差別巨大:Welling 達到 ±1.2%,而大多數應用在 ±17%–±35%。

營養資料庫查詢

一旦應用知道是什麼食物和多少,就會在資料庫中查詢營養值。資料庫包括 USDA FoodData Central、NCCDB、USDA SR 和區域資料庫(LATINFOODS、ASEANFOODS 等)。資料庫質量直接影響最終精度。

自然語言記錄與 AI 教練

最先進的 AI 應用(如 Welling)還接受自然語言描述("200 克烤三文魚帶皮"),並使用大型語言模型將其轉換為結構化營養資料。這對烹飪方法調整或精確數量的菜餚比照片更準確。

此外,實時 AI 營養教練可以審查你的記錄並提供反饋:提示蛋白質缺口、識別熱量模式,並隨著目標演變調整宏量營養素目標。

檢視每款應用如何對比

總體排名 完整方法論