这是过去一年左右的时间里,一个新兴的主题“机器学习的机器学习”的一个例子。机器学习数据目录(MLDC)、概率或模糊匹配、自动化训练数据注释和合成数据创建都使用机器学习来为下游的后续机器学习生成或准备数据,通常可以解决数据稀缺或分散的问题。这一切都很好,直到我们开始考虑到机器学习本身就依赖归纳推理,因此从本质上来说它是基于概率的。
想象一下在现实中的情况:医疗保健服务提供者希望利用计算机视觉来诊断罕见疾病,由于数据缺乏,自动注释器用于创建更多训练数据(更多标记图像),开发人员设置了90%的倾向阈值,这意味着只有达到了90%或以上准确分类概率的记录才会被用作训练数据。一旦模型被训练和部署,它就被用于患者,这些患者的数据通过文字数据字段的模糊匹配,从多个数据库链接一起。来自不同数据集的实体只要具有90%的相同概率就可以匹配在一起。最后,该模型标记的图像具有90%或更高可能性患有诊断所描绘的疾病。
问题在于,数据科学家和机器学习专家只关注最终倾向得分,以表示预测的整体准确性。这导致培训数据的准备在具有演绎性和确定性的世界中运作良好,但是当你在概率之上引入概率时,最终的倾向得分就不再准确了。在上面的例子中,有一种观点认为,准确诊断的可能性从90%降低到了73%(90% x 90% x 90%),这在生死攸关的情况下并不理想。
随着对人工智能可解释性的需求越来越强烈,需要建立一个新的分析治理框架,要囊括机器学习过程中包含的所有概率,从数据创建到数据准备、培训再到推理。如果没有它,过分地夸大倾向评分可能将误诊患者、错误地对待客户、并在关键决策时误导企业和政府。