案例分享:软通金科寿险领域高性能计算实践 有效打破继续率提升掣肘
继续率作为寿险领域中一个重要的业务质量评价指标,在日常业务管理中被广泛使用。不仅涉及到机构评价,更是会扩展到产品、业务线、代理人等不同的维度。同时,同比、环比、跨业务、跨机构的横向对比等常用分析方法也经常被使用。在实际业务环境中,因为统计对象(保单)数据体量大,跨周期条件组合多样,叠加犹豫期、续保因素等等关联因素,相关分析过程往往会面对比较大的计算压力,即使是低频查询,也存在系统响应周期长、资源占用高的诸多挑战。在业务分析、绩效考核时的高并发背景下,系统面对的访问压力更大。所以,传统上,为了满足日常管理的需求,一方面是提高系统硬件配置水平,提升系统运算能力,另一方面,也会采用日终批量方式进行“提前计算”,采用与计算或准中间结果的方式,支持在线查询,减少在线计算压力。但是,系统算力的提升并不能线性的有效改善这种局面,而“预计算”模式下也存在诸多局限。一是继续率口径上,3、4、5、6、7、13、25月的继续率等等常用的继续率口径都需要做穷举计算,以备查询;二是批量计算周期均为预制的确定统计周期,无法灵活选择起止时间,做动态的灵活分析;三是分析维度受限,对于分支机构、险种、代理人、渠道等等分析维度很难做到全部口径穷举的“提前计算”;四是在标签画像等客群管理背景下,很难实现“特定客群”的继续率计算和分析,影响精细化运营和精准营销的实施。在寿险业务领域的大规模数据统计和查询场景中,还有产品业绩合并、渠道承保统计、客户累计风险保额等类似的诸多场景,同样面临数据运算和查询响应问题。
在某寿险公司的数据中台系统建设过程中,我们通过引入国产高性能计算引擎,有效的解决了这一问题。经过实际验证,系统的高效计算,有效缩短了继续率等指标的计算时间,在满足业务人员即席在线快速查询的同时,实现了各种组合条件、统计期动态组合的灵活查询,取得了良好的应用效果。本文将就主要的背景和实现方式进行简要的说明。
以继续率为代表的计算效率问题说明:
某寿险公司拥有千万级的历史保单数据,数十个产品,众多的分支机构及大规模的保险代理人。随着数据中台的建设和部署,相关数据完成了逻辑建模和数据整合后,装载到MySQL进行批量处理、或在线查询。面对这样一个数据样本,在穷尽SQL语句优化和数据库索引等手段后,单用户查询13月继续率仍然需要数分钟才能返回统计结果,并发访问的情况下甚至需要十多分钟才会输出统计结果。不仅如此,在数据查询期间,应用系统对CPU、内存的资源占用非常大,系统的响应效率制约业务分析场景的正常运转,无法满足管理要求。
基于QDBase的系统优化方案
面对这种情况,我们对常规关系型数据库作为基础分析引擎的应用架构进行了优化,在Hadoop构成的数据湖基础上,引入国产高性能计算引擎(开源QDBase)作为继续率、客户累计风险保额等关键指标的计算引擎。
QDBase是国内著名的报表工具开发商——润乾的数据运算产品“集算器”的商用版。这是一款脱离了SQL生态体系的全国产化非关系型数据运算引擎,其开源和商用版本已经广泛应用于银行、保险、证券等诸多领域。QDBase通过自身特有的数据文件管理机制,基于SPL(Structured Process Language)——QDBase专门用于结构化数据计算的程序语言实现对关系型数据的查询、统计相关处理,在承担SQL所有查询和计算的功能基础上,跳出SQL体系的关系代数理论基础,基于自身特有的离散数据集理论,构建起离散与聚合的充分组合体,实现了超强有序运算和灵活的分布计算。将数据的遍历、统计、计算过程进行了理论体系层的彻底重构。并由此实现了诸多在SQL场景下无法解决的查询和计算效率问题。系统实施逻辑架构图如下所示:
基于MySQL的传统解决方案进行测试时,查询响应时间在数分钟以上,且并发超过5个后,系统响应周期显著增加,耗时超过10分钟,已不具实质性对比意义,因此,在此不再罗列MySQL的测试报告。系统在引入QDBase后,单一独立服务器状况下(服务器配置:4C*8Core,512G RAM),以千万级以上保单数量13月继续率在线查询,在不同压力场景下的测试结果如下所示:
从整个测试结果可以看出,系统响应时间从数分钟压缩到1秒以内,CPU、内存等系统资源占用也极大降低。并且,当并发显著增加时,系统的响应效率没有明显衰减,同时,系统在高并发情况下对于内存、CPU及磁盘IO的占用也没有线性或大规模提升。
方案总结
1、应用改造难度及对原系统架构的侵入少,使用方便。系统实现上,QDBase以轻量级组件模式进行部署,对原有的Hadoop生态+MySQL体系没有直接的影响,只是作为关系型数据高性能计算的一个旁路机制融入到数据中台架构中。向上游,其数据装载等调度机制与其他调度作业一样,可以方便的纳入总体调度体系,向下游,运算结果可以以与SQL体系类似的结果集方式与各类前端应用有机融合,或基于润乾报表的透明便捷输出。
2、运算高效,有效拓展统计维度。在采用了QDBase的在线实时计算后,可以对继续率、客户累计风险保额等各类统计指标的高效实时计算,并且,依托QDBase强大的高性能计算引擎支撑,将不同时间周期、不同口径、不同部门、不同产品、甚至不同客群、不同渠道的各类管理口径进行组合,实现实时的在线业务统计和分析。
3、系统资源占用率低,投入小。因为QDBase的低资源消耗特性及组件式嵌入部署模式,使得整个应用架构的调整成本变得可以忽略不计。无论是硬件资源,还是既有的软件系统架构和基础支持环境,都不需要进行额外的特别设计和调整,可以实现关键效率瓶颈的“点穴式”快速升级。
在寿险数据中台体系建设和运营过程中,面对寿险行业大规模基础数据背景下,常见的复杂统计和灵活查询,迫切需要采取针对性的技术方案,以更低成本、更低代价、更高效率解决业务分析和管理场景所面对的响应时效长、分析口径限制多、系统资源消耗大的性能瓶颈。QDBase作为一个高性能计算引擎的引入,在处理海量数据关联查询、多层数据遍历、预处理排序汇总、复杂指标计算和统计等场景时提供了一种全新的解决方案,可以有效提升系统性能,降低基础设施投入,推动数据价值的有效释放,助力企业数字化转型。
关键词: