应用选择

我们纳入根据公开下载和评分数据全球使用最广泛的 10 款 AI 卡路里追踪应用。应用必须在至少一个免费或试用版本中提供基于 AI 的照片食物识别;纯基于数据库搜索的应用被排除。10 款名单每年审核。

图像库(15,000 张照片)

15,000 张餐食照片,分布在 10 个菜系类别(每类 1,500 张):美式、地中海、日式、中式、印度、墨西哥/拉美、东南亚、中东、非洲和欧洲。三个难度等级:简单(单一食物)、混合(2–4 种成分)和复杂(5+ 种成分或密集菜肴)。照片在标准化光照下、以一致角度拍摄,带参考物用于比例。

参考标准:实验室称重份量

每份拍照的餐食在拍摄前都用校准过的实验室秤(精度 ±0.1 g)称重。宏量营养素成分根据 USDA FoodData Central 和经过验证的区域数据库计算。这创建了一个客观参考,我们用它来测量每款应用的 AI 估算。

测试协议

  • 三次提交:每张照片向每款应用提交三次,以中位数作为最终分数。
  • 盲法测试:开发者既不被通知,也不知道正在提交哪些图像。
  • 标准消费账户:没有提前访问,没有私有 API 密钥。
  • 相同条件:相同设备、相同网络、相同光照。

评分系统

五个加权指标构成最终得分:

  • 食物识别率(30%):15,000 张照片上的 top-1 准确率。
  • 份量 MAPE(25%):克数估算的平均绝对百分比误差。
  • 处理速度(20%):从照片到结果的中位时间。
  • 菜系覆盖(15%):10 个菜系类别的一致性。
  • 学习与适应(10%):用户反馈后的改进。

方法论常见问题

开发者知道他们的应用正被测试吗?

不知道。测试使用标准消费账户,事先不联系开发者。测试前、中、后都不通知。这防止任何针对我们特定条件的预先优化。

为什么图像库不公开?

公开图像库会让开发者在未来训练中包含我们的基准图像,使后续周期失效。库内部保留,每年更换为新的图像集。构建方法完全公开,以便他人可独立复现可比较的基准。

谁为这个基准测试出资?

基准是自筹资金。所有应用购买、测试设备和实验室验证成本都由我们自掏腰包。网站仅通过展示广告产生收入。没有开发者、联盟项目或赞助置入对成本作贡献或影响结果。

查看结果

总体排名 所有评测