狗狗求职记：AI 面试、人类辅助，美研究所利用 628 只拉布拉多数据，提升嗅觉检测犬选拔效率

3 年前

内容一览：犬类嗅觉灵敏，是执行困难任务的得力助手。然而，工作犬选拔需要经过严格的筛选和训练，淘汰率极高。利用监督式机器学习和任务数据，可以用来预测人类工作表现，然而，目前尚未发现类似的犬类研究。

关键词：工作犬监督式机器学习随机森林

作者｜daserney

编辑｜三羊

本文首发于 HyperAI 超神经微信公众平台~

在公园的绿地上、街头巷尾的角落里、常常可以看到狗狗的身影。除了作为人类的陪伴，带来欢乐与安慰外，还有许多特殊的狗狗正默默从事着重要的工作，服务于人类社会，他们被称为工作犬。

工作犬种类多样，包括军警犬、搜救犬和服务犬等，每一种类别下又分为许多不同的专业领域。其中，嗅觉侦测犬的主要任务是利用自身超强的嗅觉来检测各种特定的物质，例如爆炸物、毒品等。其嗅觉能力对于保护人类社会的安全，起着不可替代的作用。

大多数未经训练的工作犬售价在 4-8 万美元，如果将训练成本纳入考虑，价格可能翻倍。然而，工作犬的整体训练成功率低于 50%，亟需开发更有效的选拔和训练方法。

近期，来自美国全国儿童医院阿比盖尔·韦克斯纳研究所 (The Abigail Wexner Research Institute) 的 Alexander W. Eyre，以及洛基维斯塔大学 (Rocky Vista University) 的 Isain Zapata 等研究人员，利用美国运输安全管理局嗅觉检测队 628 只拉布拉多猎犬的数据，对比 3 种模型，预测猎犬能否通过预训练进入正式训练阶段，并发现了影响嗅觉检测犬表现的行为特性。

目前该研究已发布在《Scientific Reports》期刊上，标题为「Machine learning prediction and classification of behavioral selection in a canine olfactory detection program」。

该研究成果已发表在《Scientific Reports》

论文地址：

https://www.nature.com/articles/s41598-023-39112-7#Sec8

实验方法

数据介绍：AT + Env 预测猎犬表现

该研究数据来自美国运输安全管理局 (TSA) ，在 2002 – 2013 年期间进行的一项嗅觉检测犬饲养和训练计划。该数据集包含 628 只拉布拉多猎犬的评分，这些猎犬在连续 15 个月的寄养期间内，每 3 个月接受两项测试。

测试 1：机场航站楼 (Airport Terminal，简称 AT) 测试。 AT 测试在一个空的模拟机场航站楼内进行，工作人员带领猎犬穿过模拟机场航站楼，在随机散布的容器中寻找带有气味的毛巾，以及与玩具进行互动。这项测试通过测量识别带有气味毛巾时的表现、与工作人员、毛巾和玩具的互动程度，展示猎犬的训练潜力。

测试 2：环境 (Environmental，简称 Env) 测试，在基地周围的不同地点进行。测试内容包括让猎犬在工作人员的引导下走动、尝试进行搜索、并在嘈杂和拥挤的环境中与玩具和工作人员互动。测试地点包括繁忙的礼品兑换店 (BX) 、噪声大且黑暗封闭的木工店 (Woodshop) 、有移动交通和噪音的货运区 (Airport Cargo) 以及各种机场航站楼 (Airport Terminal) 。这项测试与 AT 测试相辅相成，因为在 AT 测试中，没有其他人员分散猎犬的注意力。

表 1: 猎犬特性以及评分描述

AT=机场航站楼测试，E=环境测试，B=两者都有。

采用 3 种预测模型，两种特性筛选方法

该研究使用了 3 种不同的监督式机器学习算法，根据猎犬在行为测试中的表现，预测其通过预训练选拔的成功率。使用的算法包括随机森林、支持向量机和逻辑回归。

该研究还使用主成分分析 (PCA) 和交叉验证的递归特性消除 (RFECV)，来确定影响嗅觉检测犬表现的重要行为特性。

其中，PCA 是一种统计技术，通过识别最重要的变量来降低数据维度；RFECV 是一种机器学习算法，它通过递归消除不重要的特性，从而筛选出最重要的特性。

实验结果

预测猎犬通过率：AT 测试结果较好

如下图 A 所示，在 AT 测试中，模型的预测能力总体上随着时间推移而有所提高。在第 12 个月的测试数据中，随机森林模型的表现最为突出，准确率 (Accuracy) 达到了 87%，AUC (曲线下面积) 为 0.68 。逻辑回归模型的表现稍逊一筹，但整体上仍表现良好。然而，支持向量机模型的结果相对不太稳定，这主要是因为其在预测未通过猎犬的召回率 (recall) 上表现不佳。

表 2: 3 种模型性能-A

如下图 B 所示，在 Env 测试中，预测结果并不理想。这可能是因为，与 AT 测试相比，参与 Env 测试的猎犬平均数量相对较少 (56% vs. 73%) 。总的来说，逻辑回归模型表现较好。支持向量机在 4 个时间点，预测未通过猎犬的 F1 都极低。

所有 3 种模型在第 3 个月时准确率最高 (0.82-0.84) ，且预测通过猎犬的 F1 分数较高 (0.90-0.91) 。然而，它们在第 3 个月时预测未通过猎犬的表现都不佳（F1≤0.10）。

表 2: 3 种模型性能-B

Logistic Regression: 逻辑回归

Support Vector Machine: 支持向量机

Random Forest: 随机森林

A: 机场航站楼测试，AT 测试

B: 环境测试， Env 测试

M03 、 M06 、 M09 、 M12 分别表示测试时间为第 3 、第 6 、第 9 、和第 12 个月。

图中 / 前数据表示通过预训练选拔猎犬的结果，/ 后则为未通过预训练选拔猎犬的结果。

影响特性：占有特性、信心、 H2 影响较大

研究人员使用主成分分析 (PCA) 和交叉验证的递归特征消除 (RFECV) 来确定哪些特性对不同时间点的预测最为重要。下图显示了 PCA 在 AT 测试以及 Env 测试中的结果。

图 1: 主成分分析结果

a: 机场航站楼测试，AT 测试

b: 环境测试，Env 测试

横轴特征缩写与表 1 对应。

如上图 a 所示，在 AT 测试中，第 3 个月和第 6 个月的测试数据显示，影响最大的特性是 H1/2 (Hidden 1/2)，而在第 9 个月和第 12 个月的测试数据中，物理占有 (Physical Posession, PP) 影响最大。上图 b 显示，在 Env 测试中，玩具独立占有 (Independent Possession, IP) 在所有时间点的影响最大。

递归特征消除 (RFECV) 是一种特征选择技术，它通过增加或移除特定特征变量，获得能够最大化模型性能的最优组合变量。在该研究中，RFECV 与随机森林结合使用。

表 3: 交叉验证的递归特征消除 (RFECV) 结果

a: 机场航站楼测试

b: 环境测试

数值表示各个特征出现的百分比，范围从 0 到 100 。

特征缩写与表 1 对应。

如上图 A 所示，在机场航站楼测试中，所有的占有特性 (MP, PP, IP) 及 H2 最为重要。

上图 B 显示，在环境测试中，在第 3 个月和 6 个月时，信心 (Conf) 最重要 (100% 和 88.7%)；在第 9 个月时，独立占有 (Independent Possession, IP) 最重要 (93.3%)；在第 12 个月时，物理占有 (Physical Posession, PP) 最重要 (80.7%) 。

综上，研究结果表明，某些特性如 H2 、 IP 、 Conf 可能具有较大的影响力。然而，由于数据集规模较小，并且特性种类有限，该研究在识别成功通过预训练选拔，和因行为问题未通过的猎犬方面还存在一些问题。尽管如此，通过引入更多的行为特性、医疗信息以及其他类型的纵向数据，有望进一步提升和拓展该预测程序。

专注工作犬研究的科研机构

该研究作者 Elizabeth Hare 所属机构宾夕法尼亚州兽医工作犬中心 (Penn Vet Working Dog Center) 是工作犬领域的先驱，旨在推进最新科学发现和兽医专业知识的研究和应用，以优化气味探测犬的表现。该机构受 9·11 袭击事件时搜救犬的出色表现所启发，于 2012 年 9 月 11 日创立，成为国家搜救犬研究和开发中心。

机构地址：

https://www.vet.upenn.edu/research/centers-laboratories/center/penn-vet-working-dog-center

Penn Vet Working Dog Center 致力于与犬类合作，保护人类、动物以及环境的健康和安全，通过收集和分析遗传、行为和身体健康数据，结合最新的科学研究，提升工作犬的工作效率和生活福祉。其工作不仅包括制定和实施工作犬的培养和训练计划，还包括测试和传播研究成果，以便更好地应对未来的挑战。

参考链接：

[1]https://zhuanlan.zhihu.com/p/384069169

[2]https://blog.csdn.net/qq_35218635/article/details/110001554

[3]https://zhuanlan.zhihu.com/p/626862784

[4]https://zhuanlan.zhihu.com/p/359006952