AWS客户案例-Bayer图像欺诈检测

痛点与挑战

为了提高声誉,提高销售业绩,维护客户关系,拜耳每年都会拨出大量的预算用于销售,开展营销活动,如学术会议等。
目前存在很多销售人员未参与活动,为了报销制造虚假数据(即餐费、参会人数、演讲费)和图片(即会议照片、集体照片),制造欺诈事件骗取营销补贴。
为了识别这种欺诈行为,Bayer需要借助一定的手段来识别销售提交上来的图片是真实拍摄的还是从另外一张照片上重新拍摄得到的,传统审核的方法存在以下挑战:
1) 样本量较大,公司抽样检查,覆盖面不全。
2) 每月公司会花费大量的人力资源进行检查照片的真实性,造成人力资源浪费。
目标:实现Bayer销售活动图片自动化检测,高效率识别欺诈行为。

 

解决方案

Bayer数据存储在AWS的S3存储桶内,使用AWS模型构建组件SageMaker读取存储桶内的销售真实拍摄的照片和翻拍的照片,结合业务对数据进行处理获取建模需要的数据格式,在SageMaker中尝试构建分类模型识别图片的类别,并将模型部署到AWS Endpoint,实现持续自动化识别欺诈行为。
解决方案具体步骤如下:
1. 数据读取:读取AWS S3存储桶中的Bayer的图片数据到AWS SageMaker Studio中已经建立的Notebook脚本中。
2. 特征工程:提取像素矩阵、设定圆形半径和像素点的个数、计算LBP码、分块统计直方图形成特征向量。
3. 数据集划分:将处理好的数据按8:2的比例划分训练集和验证集,选定合适的评估指标。
4. 模型训练和模型选择:设置合适的参数训练模型,或设置超参数优化作业进行参数自动调优,得到模型评估结果最好的超参组合作为最终的模型。
5. 模型部署:将最优模型部署到AWS Endpoint上。
6. 模型预测:调用Endpoint里的模型,对新的图片识别是原始图片还是翻拍图片,以实现快速识别欺诈行为。

成果与收益

实现了自动化预测:部署在AWS Endpoint上的模型在任何时候都可以被调用,进行自动化预测,大大降低了Bayer手工识别的成本,预测结果直接存储到AWS S3中,Bayer相关业务人员可直接下载查看相关预测报告。
模型识别准确率:模型预测准确率达到95%,召回率达到90%。
模型的自动化实现和效率的提升给Bayer带来了极大的工作效率。

 

解决方案架构图

关于<bayer>

 


拜耳作为一家跨国公司,在医药保健和农业领域具有核心竞争力。公司致力于通过产品和服务,帮助人们克服全球人口不断增长和老龄化带来的重大挑战,造福人类。同时,集团还通过科技创新和业务增长来提升盈收能力并创造价值。拜耳致力于可持续发展。在全球,拜耳品牌代表着可信、可靠及优质

AWS客户案例-默克IVF周期数和销量预测

痛点与挑战

默克致力于创新型制药、生命科学以及前沿功能材料技术, 以技术为客户创造价值。本次项目着眼于其生殖医学领域,产品为IVF相关的5种,每种产品对应不同的客户群体、销售情况及市场份额。随着产品在市场使用量的不断变化未来销量也有所不同,默克亟待找到合理的预测逻辑来预估每种产品未来的OP,以指导生产和销售等供应链流程。
主要挑战:
1. 手工预测可考虑的因素有限制,难以捕捉全局影响,需要专业的模型结合大量可用数据进行AI智能预测,实现高准确率的周期数和产品销量预测。
2. 随着业务量增加,数据量急剧上升,加上业务对预测需求的及时性,需要实现预测模型的自动化上线预测。
如果不及时升级预测策略和方式,供应链上的排产计划将受到影响,进而影响销售和库存,造成企业的资源浪费、各项成本增加、收益降低等。
预测目标:
• 周期数预估:基于影响周期数的因素预估未来24个月IVF相关的促排周期数和移植周期数。
• 产品销量预测:基于IVF相关产品的历史销售数据(SKU、销售区域、医院情况、周期数、时间特征等)、总体市场情况及产品的市场份额,构建销售预测模型来预估未来产品销量。

 

解决方案

模型的实现架构如下图所示,包含两大阶段,一是Sagemaker上的模型开发和调试,二是Lambda上的模型调度。两大阶段涉及到的数据流、模型构建和模型调度均在默克内部的AWS VPC中实现,外网无访问权限。

AWS上的模型运行机制如上图所示,可从4个方面进行描述:
1. 数据输入和ETL
通过Hive定期抽取DB中的历史周期数和产品销量数据,进行ETL处理,处理后的模型宽表导入S3。
2. 模型构建、训练和推理
在SageMaker Studio中实现模型预处理、特征工程、模型构建和部署。
3. 模型调度
S3中的文件触发Lambda进行模型调度,调度起SageMaker中的模型重训练和模型预测,预测结果写回RDS数据库。
4. 模型安全性和可靠性配置
AWS SSO控制用户访问RDS数据库的加密策略,AWS IAM通过用户的权限设置其访问策略,Amazon CloudWatch通过监控各组件的运行记录操作日志和指标变化信息,实现用户行为监控,达到安全性和可靠性配置。

关于<默克>

 


默克创建于1668年,主要致力于创新型制药、生命科学以及前沿功能材料技术, 并以技术为驱动力,为患者和客户创造价值。在中国,默克主要从事制药、生命科学和化工业务,并为客户提供从创新型的处方类药品、非处方类药品到生命科学领域的解决方案,工业用途的效果颜料和化学品。
本项目涉及在生殖周期每一阶段辅助IVF的5种产品的销量预测: 果纳芬®,艾泽®, 乐芮®, 思则凯®, 雪诺酮®, Pergoveris™,以及全国整体市场上潜在IVF人群数。

成果与收益

1. 实现全自动化模型调度和预测:实现了与默克DB的自动对接,使用Lambda实现自动模型调度,在每月数据采集完成后自动执行模型预测。
2. 预测准确率提升:与手工预测相比,模型销量预测的准确率大大提升,提升排产规划精准度,优化供应链管理。

AWS客户案例-某调味品生产商销量预测

痛点与挑战

作为调味品的生产厂商,该公司对接处于不同生命周期阶段的各类经销商,销售场景复杂,销售模式多样。随着业务的飞速发展,供应链相关流程上的生产计划、销售计划、物流计划等均需要及时且精准地被满足。
为了合理安排生产计划,该公司需要借助一定的手段来预测在未来一段时间内每周到经销商的销量。传统的预测方法存在以下两大挑战:
1) 由于经销商周销量数据稀疏度较高,手工难以找到普遍规律,传统手工预测方法准确率非常不可观,亟待提升。
2) 随着业务量的增加,传统手工预测成本指数级增长,已无法有效应对多经销商、多SKU、多产品类型及不断变化的外部环境因素的销售场景,需要部署自动化预测工具来解决这一难题,实现未来几周到经销商销量的自动预测。
如果不及时升级预测策略和方式,供应链上的各类计划将无法及时应对,最直接的影响是很容易造成库存积压或缺货的情况,造成企业的资源浪费、各项成本增加。
目标:实现到该公司经销商销量预测的准确率提升及预测模型的自动化实现。

 

解决方案

该调味品公司数据存储在AWS的S3存储桶内,使用AWS模型构建组件SageMaker读取存储桶内的每日销售数据,结合业务对数据进行处理获取建模需要的各个字段,在SageMaker中尝试构建回归模型建立各个影响因素和销量之间的关系,进而根据模型预测未来的销量,将模型部署到AWS Endpoint,实现持续预测和生产监控。
解决方案具体步骤如下:
1. 数据读取:读取AWS S3存储桶中的销量数据到AWS SageMaker Studio中已经建立的Notebook脚本中。
2. 数据ETL:结合业务理解对数据进行预处理,包括数据清洗、变量筛选、缺失值填充等,接着将数据ETL处理成模型可读取的结构化宽表,格式为第一列为目标变量(销量)、其他列为所有影响目标变量的因子(年份、月份、周、销量等),宽表已汇总成预测粒度,即年份、周、经销商。
3. 特征工程:结合业务理解和建模经验生成衍生变量,并结合因子分析和变量重要度排序,进行特征筛选。
4. 数据集划分:将处理好的数据根据时间轴和验证集长度划分训练集和验证集,选定合适的评估指标。
5. 模型训练和模型选择:设置合适的参数训练模型,或设置超参数优化作业进行参数自动调优,得到模型评估结果最好的超参组合作为最终的模型。
6. 模型部署:将最优模型部署到AWS Endpoint上。
7. 模型预测:生成未来几周的因子数据,调用Endpoint进行模型预测,预测未来几周该调味品公司到经销商的销量。

成果与收益

实现了自动化预测:部署在AWS Endpoint上的模型在任何时候都可以被调用,进行自动化预测,大大降低了该调味品公司内部手工预测的成本,预测结果直接存储到AWS S3中,业务人员可直接下载查看相关预测报告。
预测准确率提升:与手工预测相比,模型销量预测的准确率整体上提升了15%,相当于每个月降低了3天的人工成本。
模型的自动化实现和预测准确率的提升给该调味品公司带来了供应链的高效运转。

解决方案架构图

AWS客户案例-某汽车电子有限公司质量检测

痛点与挑战

压装技术(Press fit)是某汽车电子有限公司新引入的PEU生产工艺,目前都是人工检测产品的压装结果。
为了高效及时的给出压装产品的质量检测结果以及降低人工检测的成本,该汽车电子有限公司需要借助一定的科学的手段来助力产品检测。传统的预测方法存在以下两大挑战:
1) 压装产品较多,人工检测的成本较大。
2) 人工检测的不及时。
目标:实现该汽车电子有限公司压装产品质量的及时的自动化检测。

 

解决方案

某汽车电子有限公司数据存储在AWS的S3存储桶内,使用AWS模型构建组件SageMaker读取存储桶内的产品压装数据,结合业务对数据进行处理获取建模需要的各个字段,在SageMaker中尝试构建好坏品分类模型,进而根据模型基于未来的产品压装数据给出产品压装结果,将模型部署到AWS Endpoint,实现持续预测和生产监控。
解决方案具体步骤如下:
1. 数据读取:读取AWS S3存储桶中的欣和销量数据到AWS SageMaker Studio中已经建立的Notebook脚本中。
2. 数据ETL:结合业务理解进行数据预处理,包括数据清洗、变量筛选等,接着将数据ETL处理成模型可读取的结构化宽表,格式为第一列为目标变量(压装结果)、其他列为所有影响目标变量的因子(拐点位移、拐点压力、最大力位移、最大力等),宽表已汇总成预测粒度,即每条产品的特征及压装结果成一条数据记录
3. 特征工程:结合业务理解和建模经验生成衍生变量,并结合因子分析和变量重要度排序,进行特征筛选。
4. 数据集划分:将处理好的数据根据时间轴和验证集长度划分训练集和验证集,选定合适的评估指标。
5. 模型训练和模型选择:设置合适的参数训练模型,或设置超参数优化作业进行参数自动调优,得到模型评估结果最好的超参组合作为最终的模型。
6. 模型部署:将最优模型部署到AWS Endpoint上。
7. 模型预测:对于压装的过程数据,可以调用Endpoint进行模型预测,直接给出产品压装结果。

成果与收益

实现了自动化预测:部署在AWS Endpoint上的模型在任何时候都可以被调用,进行自动化预测,大大降低了该汽车电子有限公司手工检测的成本,预测结果直接存储到AWS S3中,使组织里的业务人员可直接下载查看相关检测报告。
模型准确率为98%,坏品召回率为95%,精准的检测结果,大大降低了手工检测的成本和时间。

解决方案结构图

+ Bayer图像欺诈检测

AWS客户案例-Bayer图像欺诈检测

痛点与挑战

为了提高声誉,提高销售业绩,维护客户关系,拜耳每年都会拨出大量的预算用于销售,开展营销活动,如学术会议等。
目前存在很多销售人员未参与活动,为了报销制造虚假数据(即餐费、参会人数、演讲费)和图片(即会议照片、集体照片),制造欺诈事件骗取营销补贴。
为了识别这种欺诈行为,Bayer需要借助一定的手段来识别销售提交上来的图片是真实拍摄的还是从另外一张照片上重新拍摄得到的,传统审核的方法存在以下挑战:
1) 样本量较大,公司抽样检查,覆盖面不全。
2) 每月公司会花费大量的人力资源进行检查照片的真实性,造成人力资源浪费。
目标:实现Bayer销售活动图片自动化检测,高效率识别欺诈行为。

 

解决方案

Bayer数据存储在AWS的S3存储桶内,使用AWS模型构建组件SageMaker读取存储桶内的销售真实拍摄的照片和翻拍的照片,结合业务对数据进行处理获取建模需要的数据格式,在SageMaker中尝试构建分类模型识别图片的类别,并将模型部署到AWS Endpoint,实现持续自动化识别欺诈行为。
解决方案具体步骤如下:
1. 数据读取:读取AWS S3存储桶中的Bayer的图片数据到AWS SageMaker Studio中已经建立的Notebook脚本中。
2. 特征工程:提取像素矩阵、设定圆形半径和像素点的个数、计算LBP码、分块统计直方图形成特征向量。
3. 数据集划分:将处理好的数据按8:2的比例划分训练集和验证集,选定合适的评估指标。
4. 模型训练和模型选择:设置合适的参数训练模型,或设置超参数优化作业进行参数自动调优,得到模型评估结果最好的超参组合作为最终的模型。
5. 模型部署:将最优模型部署到AWS Endpoint上。
6. 模型预测:调用Endpoint里的模型,对新的图片识别是原始图片还是翻拍图片,以实现快速识别欺诈行为。

成果与收益

实现了自动化预测:部署在AWS Endpoint上的模型在任何时候都可以被调用,进行自动化预测,大大降低了Bayer手工识别的成本,预测结果直接存储到AWS S3中,Bayer相关业务人员可直接下载查看相关预测报告。
模型识别准确率:模型预测准确率达到95%,召回率达到90%。
模型的自动化实现和效率的提升给Bayer带来了极大的工作效率。

 

解决方案架构图

关于<bayer>

 


拜耳作为一家跨国公司,在医药保健和农业领域具有核心竞争力。公司致力于通过产品和服务,帮助人们克服全球人口不断增长和老龄化带来的重大挑战,造福人类。同时,集团还通过科技创新和业务增长来提升盈收能力并创造价值。拜耳致力于可持续发展。在全球,拜耳品牌代表着可信、可靠及优质

+ 默克IVF周期数和销量预测

AWS客户案例-默克IVF周期数和销量预测

痛点与挑战

默克致力于创新型制药、生命科学以及前沿功能材料技术, 以技术为客户创造价值。本次项目着眼于其生殖医学领域,产品为IVF相关的5种,每种产品对应不同的客户群体、销售情况及市场份额。随着产品在市场使用量的不断变化未来销量也有所不同,默克亟待找到合理的预测逻辑来预估每种产品未来的OP,以指导生产和销售等供应链流程。
主要挑战:
1. 手工预测可考虑的因素有限制,难以捕捉全局影响,需要专业的模型结合大量可用数据进行AI智能预测,实现高准确率的周期数和产品销量预测。
2. 随着业务量增加,数据量急剧上升,加上业务对预测需求的及时性,需要实现预测模型的自动化上线预测。
如果不及时升级预测策略和方式,供应链上的排产计划将受到影响,进而影响销售和库存,造成企业的资源浪费、各项成本增加、收益降低等。
预测目标:
• 周期数预估:基于影响周期数的因素预估未来24个月IVF相关的促排周期数和移植周期数。
• 产品销量预测:基于IVF相关产品的历史销售数据(SKU、销售区域、医院情况、周期数、时间特征等)、总体市场情况及产品的市场份额,构建销售预测模型来预估未来产品销量。

 

解决方案

模型的实现架构如下图所示,包含两大阶段,一是Sagemaker上的模型开发和调试,二是Lambda上的模型调度。两大阶段涉及到的数据流、模型构建和模型调度均在默克内部的AWS VPC中实现,外网无访问权限。

AWS上的模型运行机制如上图所示,可从4个方面进行描述:
1. 数据输入和ETL
通过Hive定期抽取DB中的历史周期数和产品销量数据,进行ETL处理,处理后的模型宽表导入S3。
2. 模型构建、训练和推理
在SageMaker Studio中实现模型预处理、特征工程、模型构建和部署。
3. 模型调度
S3中的文件触发Lambda进行模型调度,调度起SageMaker中的模型重训练和模型预测,预测结果写回RDS数据库。
4. 模型安全性和可靠性配置
AWS SSO控制用户访问RDS数据库的加密策略,AWS IAM通过用户的权限设置其访问策略,Amazon CloudWatch通过监控各组件的运行记录操作日志和指标变化信息,实现用户行为监控,达到安全性和可靠性配置。

关于<默克>

 


默克创建于1668年,主要致力于创新型制药、生命科学以及前沿功能材料技术, 并以技术为驱动力,为患者和客户创造价值。在中国,默克主要从事制药、生命科学和化工业务,并为客户提供从创新型的处方类药品、非处方类药品到生命科学领域的解决方案,工业用途的效果颜料和化学品。
本项目涉及在生殖周期每一阶段辅助IVF的5种产品的销量预测: 果纳芬®,艾泽®, 乐芮®, 思则凯®, 雪诺酮®, Pergoveris™,以及全国整体市场上潜在IVF人群数。

成果与收益

1. 实现全自动化模型调度和预测:实现了与默克DB的自动对接,使用Lambda实现自动模型调度,在每月数据采集完成后自动执行模型预测。
2. 预测准确率提升:与手工预测相比,模型销量预测的准确率大大提升,提升排产规划精准度,优化供应链管理。

+ 某调味品生产商销量预测

AWS客户案例-某调味品生产商销量预测

痛点与挑战

作为调味品的生产厂商,该公司对接处于不同生命周期阶段的各类经销商,销售场景复杂,销售模式多样。随着业务的飞速发展,供应链相关流程上的生产计划、销售计划、物流计划等均需要及时且精准地被满足。
为了合理安排生产计划,该公司需要借助一定的手段来预测在未来一段时间内每周到经销商的销量。传统的预测方法存在以下两大挑战:
1) 由于经销商周销量数据稀疏度较高,手工难以找到普遍规律,传统手工预测方法准确率非常不可观,亟待提升。
2) 随着业务量的增加,传统手工预测成本指数级增长,已无法有效应对多经销商、多SKU、多产品类型及不断变化的外部环境因素的销售场景,需要部署自动化预测工具来解决这一难题,实现未来几周到经销商销量的自动预测。
如果不及时升级预测策略和方式,供应链上的各类计划将无法及时应对,最直接的影响是很容易造成库存积压或缺货的情况,造成企业的资源浪费、各项成本增加。
目标:实现到该公司经销商销量预测的准确率提升及预测模型的自动化实现。

 

解决方案

该调味品公司数据存储在AWS的S3存储桶内,使用AWS模型构建组件SageMaker读取存储桶内的每日销售数据,结合业务对数据进行处理获取建模需要的各个字段,在SageMaker中尝试构建回归模型建立各个影响因素和销量之间的关系,进而根据模型预测未来的销量,将模型部署到AWS Endpoint,实现持续预测和生产监控。
解决方案具体步骤如下:
1. 数据读取:读取AWS S3存储桶中的销量数据到AWS SageMaker Studio中已经建立的Notebook脚本中。
2. 数据ETL:结合业务理解对数据进行预处理,包括数据清洗、变量筛选、缺失值填充等,接着将数据ETL处理成模型可读取的结构化宽表,格式为第一列为目标变量(销量)、其他列为所有影响目标变量的因子(年份、月份、周、销量等),宽表已汇总成预测粒度,即年份、周、经销商。
3. 特征工程:结合业务理解和建模经验生成衍生变量,并结合因子分析和变量重要度排序,进行特征筛选。
4. 数据集划分:将处理好的数据根据时间轴和验证集长度划分训练集和验证集,选定合适的评估指标。
5. 模型训练和模型选择:设置合适的参数训练模型,或设置超参数优化作业进行参数自动调优,得到模型评估结果最好的超参组合作为最终的模型。
6. 模型部署:将最优模型部署到AWS Endpoint上。
7. 模型预测:生成未来几周的因子数据,调用Endpoint进行模型预测,预测未来几周该调味品公司到经销商的销量。

成果与收益

实现了自动化预测:部署在AWS Endpoint上的模型在任何时候都可以被调用,进行自动化预测,大大降低了该调味品公司内部手工预测的成本,预测结果直接存储到AWS S3中,业务人员可直接下载查看相关预测报告。
预测准确率提升:与手工预测相比,模型销量预测的准确率整体上提升了15%,相当于每个月降低了3天的人工成本。
模型的自动化实现和预测准确率的提升给该调味品公司带来了供应链的高效运转。

解决方案架构图

+ 某汽车电子有限公司质量检测

AWS客户案例-某汽车电子有限公司质量检测

痛点与挑战

压装技术(Press fit)是某汽车电子有限公司新引入的PEU生产工艺,目前都是人工检测产品的压装结果。
为了高效及时的给出压装产品的质量检测结果以及降低人工检测的成本,该汽车电子有限公司需要借助一定的科学的手段来助力产品检测。传统的预测方法存在以下两大挑战:
1) 压装产品较多,人工检测的成本较大。
2) 人工检测的不及时。
目标:实现该汽车电子有限公司压装产品质量的及时的自动化检测。

 

解决方案

某汽车电子有限公司数据存储在AWS的S3存储桶内,使用AWS模型构建组件SageMaker读取存储桶内的产品压装数据,结合业务对数据进行处理获取建模需要的各个字段,在SageMaker中尝试构建好坏品分类模型,进而根据模型基于未来的产品压装数据给出产品压装结果,将模型部署到AWS Endpoint,实现持续预测和生产监控。
解决方案具体步骤如下:
1. 数据读取:读取AWS S3存储桶中的欣和销量数据到AWS SageMaker Studio中已经建立的Notebook脚本中。
2. 数据ETL:结合业务理解进行数据预处理,包括数据清洗、变量筛选等,接着将数据ETL处理成模型可读取的结构化宽表,格式为第一列为目标变量(压装结果)、其他列为所有影响目标变量的因子(拐点位移、拐点压力、最大力位移、最大力等),宽表已汇总成预测粒度,即每条产品的特征及压装结果成一条数据记录
3. 特征工程:结合业务理解和建模经验生成衍生变量,并结合因子分析和变量重要度排序,进行特征筛选。
4. 数据集划分:将处理好的数据根据时间轴和验证集长度划分训练集和验证集,选定合适的评估指标。
5. 模型训练和模型选择:设置合适的参数训练模型,或设置超参数优化作业进行参数自动调优,得到模型评估结果最好的超参组合作为最终的模型。
6. 模型部署:将最优模型部署到AWS Endpoint上。
7. 模型预测:对于压装的过程数据,可以调用Endpoint进行模型预测,直接给出产品压装结果。

成果与收益

实现了自动化预测:部署在AWS Endpoint上的模型在任何时候都可以被调用,进行自动化预测,大大降低了该汽车电子有限公司手工检测的成本,预测结果直接存储到AWS S3中,使组织里的业务人员可直接下载查看相关检测报告。
模型准确率为98%,坏品召回率为95%,精准的检测结果,大大降低了手工检测的成本和时间。

解决方案结构图