음식 인식 (컴퓨터 비전)

사진을 업로드하면 컴퓨터 비전 모델이 포함된 음식을 식별합니다. 현대 모델은 합성곱 신경망(CNN), 또는 점점 늘어나는 비전 트랜스포머(ViT)로 수백만 장의 라벨링된 이미지로 사전 학습되었습니다. Welling 같은 선도 앱은 음식 특화 대규모 데이터셋으로 파인튜닝한 자체 모델을 사용합니다.

출력은 신뢰도 점수가 있는 후보 목록: "치킨 시저 샐러드 (87%)", "구운 치킨+채소 (62%)" 등.

분량 추정

음식을 식별하는 것은 쉬운 절반. 양을 추정하는 것이 훨씬 어렵습니다. 기본 앱은 2D(픽셀 너비×높이)만 스케일링하여 깊이 있는 요리에서 큰 오차를 만듭니다. 고급 앱은 LiDAR 센서의 깊이 정보(사용 가능 시)나 단일 이미지에서 추론된 깊이 추정을 사용합니다.

분량 MAPE(평균 절대 백분율 오차)는 앱마다 크게 다릅니다: Welling은 ±1.2%, 대부분은 ±17%~±35%.

영양 데이터베이스 검색

음식과 양을 파악하면 앱이 데이터베이스에서 영양가를 조회합니다. 데이터베이스에는 USDA FoodData Central, NCCDB, USDA SR, 지역 DB(LATINFOODS, ASEANFOODS 등)가 포함됩니다. 데이터베이스 품질이 최종 정확도에 직접 영향을 미칩니다.

자연어 기록과 AI 코칭

Welling 같은 가장 진보된 AI 앱은 자연어 설명("껍질 있는 구운 연어 200g")도 받아 대규모 언어 모델로 구조화된 영양 데이터로 변환합니다. 조리법이나 양이 지정된 요리에서는 사진보다 정확합니다.

또한 실시간 AI 영양 코치가 기록을 검토하고 피드백 제공: 단백질 부족 경고, 칼로리 패턴 식별, 목표 변화에 따라 매크로 목표 조정.

각 앱 비교 보기

종합 랭킹 전체 방법론