算力说
饮食评估可以帮助人们监督管理饮食,帮助人们科学摄入。近年来,智能手机和一些可穿戴设备可以达到一定的效果,但无论从便捷度、隐私性、数据负担上,都有一定的缺陷。AI图像分类不仅能有效解决这些问题,还可以在饮食数据库中检索出有关食物营养和能量含量的信息。
本文编译自公共健康营养近期的一篇同行审阅文章,由Thomas等学者共同执笔。
算力观点
人工智能技术可以从低像素、可穿戴相机中获取真实图像,从中自动检测食物。现阶段数据的准确度也十分高,同时这个技术减少了数据处理负担和隐私问题,对研究饮食评估等应用方面打下了坚实的基础。
AI食物图像分类
近年来,通过智能手机拍摄饮食照片被用作为一种新的饮食评估方式。每盘食物在食用前后都必须主动拍照,这既不方便又不实用。这种方法也可能因为拍照过程而破坏正常的饮食习惯。因此,很难用这种方法进行长期的饮食评估。
由于可穿戴相机能够连续、自动地记录佩戴者面前的场景,人们借此开发在饮食研究方面的潜在应用,如The SenseCAM (由微软开发),the ebutton (由原文作者开发)。研究表明,借助可穿戴的照相机,不仅可以评估食物摄入量,而且可以研究饮食环境以及行为。然而,这样的方法既没有减少图像审查的负担,也没有减少人工处理引起的隐私问题。因此,运用AI食物图像分类从采集图像中检测食物的想法应运而生。
两种数据集在食物图像分类上的验证
1. Food-5k
Food-5K是一个公开数据集。原作者使用这个数据集来比较研究算法与现有研究的性能。在这组数据中,图像是由智能手机和手持相机而不是可穿戴设备采集的,大多数食物图像只包含一种食物,该数据集的分类相对容易。
对评估集的分类结果显示在表1中,使用不同的相似性度量(jaccard和dice)。标签字典是n 761的训练数据集构建的。由表1可以看出,当阈值设置为3(即k=3)时,用骰子相似性度量,总体准确度、灵敏度、特异性和精密度分别为98.7%、98.2%、99.2%和99.2%。我们注意到,错误分类的图像大多是困难的情况,即使是人类执行任务也很困难。
表1 (图片来源:PHN)
2. ebutton数据集:食品/非食品数据集
从电子按钮(包含一个微型相机和一个运动传感器)中采集的图像中选择了3900幅真实图像。这些图像的分辨率为640像素×480像素。在匹兹堡大学进行的两项实地研究中,12名参与者获得了一半的图像,包括950张食物图像和1000张非食物图像。另一半主要由18名实验室成员和合作者在日常生活或旅行中获得。
在这个实验中,首先从随机选择的电子按钮图像中建立了一本标签字典,包括不同的日常活动。这些图片中只有很小的一部分包含与食物相关的内容,因此本标签字典中只包含一些与食物相关的标签。为了使标签字典更适合研究,原作者建立了一本1253个标签的字典。由于这两组数据中的图像都是由不同的人单独获取的,因此进行了交叉数据集评估。结果如图一所示。可以看出,阈值k是决定分类结果的一个重要因素。当k=2时,敏感性和特异性均较高。这两种情况的总体准确度测量值分别为91.5%和86.4%。
图一(图片来源:PHN)
3. ebutton数据集:一周数据集
实验是通过一名志愿者在白天连续戴着一个电子按钮一周,记录下各种现实生活活动。首先,电子按钮对图像序列进行采样(10秒一次)。然后使用Picasa软件检测到人脸,并在发送给观察者之前筛选出可能存在隐私问题的图像,并按照上一个案例中描述的方式对图像进行注释。完成这些步骤后,获得29515张图像。这些图像最后由人工智能软件(Clarifai CNN)处理,为每个图像生成20个标签。
图二(图片来源:PHN)
原文作者定义了一个负担指数来表示总阳性图像的数量和所有图像的数量之间的比率。
阀值k是该算法中的一个可调参数。较小的k会导致跟高的灵敏度,但也会带来更高的负担。当k=1时,37.8%的总图像需要进一步检查,这对研究人员来说可能是太大的负担,尽管总灵敏度高达89.5%。当k=2时,总负荷降低到18%,敏感性为74.0%,特异性为87.0%。第1天和第6天的敏感性显著低于其他两天。在提取了所有的假阴性图像后,可以发现第一天的354个“饮料”图像中,有206个由于黑暗环境和小咖啡杯而被丢失,而在第六天的154个进食图像中,有78个由于过度曝光的图像和食物面积太小的图像而被丢失。
图三(图片来源:PHN)
可穿戴设备所采集数据挑战
实验结果表明,人工智能算法在food-5K和ebutton数据集上都取得了很好的效果。但是,Food-5K数据集的性能更好。这种差异可能有三个原因。
首先,如果在电子按钮佩戴者移动时记录图像,则无法避免图像模糊。在应用ebutton数据集应用算法上有约17.7%的图像是模糊的。
第二,在一些图片中,食物只覆盖了图片中很小的一部分,尤其是在饮酒的时候。在为期一周的数据集中,佩戴者有时在阅读或做电脑工作时吃喝,因此食物摆放在盘子位于图像的角落。
第三,与food-5K数据集相比,由于在ebutton的数据是由广角摄像机和被动图像捕获,因而图像中包含更多的对象。这使得检测任务更具挑战性。