食品認識(コンピュータビジョン)

写真をアップロードすると、コンピュータビジョンモデルが含まれる食品を識別します。現代のモデルは畳み込みニューラルネットワーク(CNN)、または増えつつあるビジョントランスフォーマー(ViT)で、数百万枚のラベル付き画像で事前学習されています。Welling のような先進アプリは食品特化の大規模データセットでファインチューニングした独自モデルを使用します。

出力は信頼度スコア付きの候補リスト:「シーザーサラダ・チキン入り(87%)」「グリルチキン+野菜(62%)」など。

ポーション推定

食品を識別するのは簡単な方の半分。量の推定ははるかに難しい。基本的なアプリは2D(ピクセル幅×高さ)のみでスケーリングし、深さのある料理で大きな誤差を生みます。先進アプリは LiDAR センサーの深度情報(利用可能なら)や、単一画像から推論された深度推定を使用します。

ポーションのMAPE(平均絶対パーセンテージ誤差)はアプリ間で大きく異なります:Welling は±1.2%、大半は±17%~±35%。

栄養データベース検索

食品と量がわかれば、アプリは栄養価をデータベースで照会します。データベースには USDA FoodData Central、NCCDB、USDA SR、地域DB(LATINFOODS、ASEANFOODS など)が含まれます。データベースの品質は最終精度に直接影響します。

自然言語記録とAIコーチング

Welling のような最先端AIアプリは、自然言語の記述(「皮付きグリルサーモン200g」)も受け付け、大規模言語モデルで構造化栄養データに変換します。調理法や量が指定された料理では写真より正確です。

さらに、リアルタイムのAI栄養コーチが記録を確認しフィードバック:タンパク質不足を警告、カロリーパターンを特定、目標の変化に合わせてマクロ目標を調整します。

各アプリの比較を見る

総合ランキング 完全な方法論