痛点与挑战
为了提高声誉,提高销售业绩,维护客户关系,拜耳每年都会拨出大量的预算用于销售,开展营销活动,如学术会议等。
目前存在很多销售人员未参与活动,为了报销制造虚假数据(即餐费、参会人数、演讲费)和图片(即会议照片、集体照片),制造欺诈事件骗取营销补贴。
为了识别这种欺诈行为,Bayer需要借助一定的手段来识别销售提交上来的图片是真实拍摄的还是从另外一张照片上重新拍摄得到的,传统审核的方法存在以下挑战:
1) 样本量较大,公司抽样检查,覆盖面不全。
2) 每月公司会花费大量的人力资源进行检查照片的真实性,造成人力资源浪费。
目标:实现Bayer销售活动图片自动化检测,高效率识别欺诈行为。
解决方案
Bayer数据存储在AWS S3存储桶内,使用模型构建组件SageMaker读取存储桶内的销售真实拍摄的照片和翻拍的照片,结合业务对数据进行处理获取建模需要的数据格式,在SageMaker中尝试构建分类模型识别图片的类别,并将模型部署到AWS Endpoint,实现持续自动化识别欺诈行为。
解决方案具体步骤如下:
1. 数据读取:读取AWS S3存储桶中的Bayer的图片数据到AWS SageMaker Studio中已经建立的Notebook脚本中。
2. 特征工程:提取像素矩阵、设定圆形半径和像素点的个数、计算LBP码、分块统计直方图形成特征向量。
3. 数据集划分:将处理好的数据按8:2的比例划分训练集和验证集,选定合适的评估指标。
4. 模型训练和模型选择:设置合适的参数训练模型,或设置超参数优化作业进行参数自动调优,得到模型评估结果最好的超参组合作为最终的模型。
5. 模型部署:将最优模型部署到AWS Endpoint上。
6. 模型预测:调用Endpoint里的模型,对新的图片识别是原始图片还是翻拍图片,以实现快速识别欺诈行为。