凡得热点

/

公司新闻

山东理工大学刘聪:国内流程挖掘处于发展初期,面临人才、技术短板

发布时间:2022-08-27

以下文章来源于36Kr 采访、编辑 | 真梓、王与桐,作者 | 徐文璞

流程挖掘行业已逐步形成自驱力。预计2022年底,国内将出现20家左右提供流程挖掘解决方案的公司。据Gartner预测,2025年全球流程挖掘软件市场规模将达到22.5 亿美元,我国流程挖掘软件市场规模将达到5亿美金。

36氪此前发文,认为2022年第一个企服风口是RPA x 流程挖掘。一个佐证是,截止目前该领域已出现系列大厂收购事件。

2022.1 全球 RPA 三大厂商之一 Automation Anywhere (简称AA)宣布收购 FortressIQ,以增强RPA业务挖掘、发现能力,为今年的IPO做准备

2022.1 美国自动化标准品牌Decisions收购Process Diamond,推出首个智能流程自动化(IPA)平台

2022.3 Celonis宣布收购流程挖掘厂商Process Analytics Factory(简称PAF),以增强产品能力和扩大市场赋能范围

2022.4  微软收购斯洛伐克流程挖掘供应商,以发展其流程自动化产品

2022.5 微软对RPA产品Power Automate新增多项功能:流程挖掘、任务挖掘、托管RPA机器人、SDK接口、Windows11免费使用、在Power Apps中构建自动化流程等。

另一方面,在流程挖掘领域,国际标杆企业、市场份额第一的Celonis,2021年估值已高达110亿美元。而国内,从2021年开始出现了包括杰成合力、凡得科技、璇星科技、望繁信、熵评科技、优数腾等在内的专注于提供流程挖掘解决方案的流程挖掘公司。同时传统的RPA厂商,如来也科技、弘玑cyclone、九科信息、艺赛旗、容智信息、实在智能等,也陆续发布了其流程挖掘产品。其中,在资本遇冷的情况下,多家专注流程挖掘的厂商在2022年获得数千万元融资。

为了跟进解释流程挖掘究竟是何方神圣、可以解决什么问题、国内都有谁在做流程挖掘、现在遇到了哪些问题以及如何解决,日前,36氪发布新风向被SAP、IBM、微软盯上的流程挖掘,能长出中国独角兽?

由于流程挖掘是学科推动产业化的背景,加之不论对产业界还是学术界来说,其都算是近期国内出现的新兴事物。对于目前流程挖掘落地的难点是什么?国内产品与海外产品有哪些差距?市场前景如何?未来哪些因素将影响流程挖掘行业的发展?本文专访了山东理工大学计算机科学与技术学院刘聪教授,将对以上问题一一解答。

刘聪教授曾于2015-2019年间在荷兰埃因霍芬理工大学攻读工学博士学位,师从欧洲科学院院士、“流程挖掘之父”、Wil van der Aalst教授,进行流程挖掘理论与应用方向研究。2019年回国后,刘聪入职山东理工大学并组建了流程挖掘实验室,同时也担任了国内多个流程挖掘创业公司和行业媒体的技术顾问。

流程挖掘:从学术界到产业界

36氪:流程挖掘源自学术研究,有很强的科学属性,请您大致介绍一下背景。

刘聪:是的,流程挖掘作为一门科学或者一个研究领域,有它的传承。目前为止,它大部分的算法和框架,是建立在Petri网理论模型的基础上。大家可以把Petri网理解为一种描述流程的形式化模型,可以描述流程活动间的顺序、选择、并发和循环等关系。现在很多商业工具采用有向图来描述流程行为,然而有向图只能描述活动间的前后跟随关系,而活动间其他的重要关系(如并发关系和选择关系)则丢失了。相比有向图,Petri网与流程挖掘技术可以做到无缝对接,从Petri网理论到工作流管理技术,再到流程挖掘是一个学科发展传承的过程。

国内Petri网领域有两位宗师级别前辈,一位是北京大学的袁崇义教授,另一位是山东科技大学的吴哲辉教授。这是Petri网作为一门科学,在国内的主要源头。而流程挖掘本身是一个舶来品,国外的源头是荷兰埃因霍芬理工大学的Wil van der Aalst教授团队。所以对于国内的研究人员和企业从业者来说,如果想深度且高效地学习流程挖掘相关技术,建议跟进该领域内的专家大佬们的最新研究进展,并争取与他们深度交流学习的机会。目前为止,在国内流程挖掘领域一直深耕且较为活跃的科研人员,大都去Wil教授团队做过访问、博后或者直接读博士。这可能也是流程挖掘学科上的一个门槛,身临其境后才会很快上手并掌握其精髓要义。

36氪:这个精髓指什么?

刘聪:就是流程挖掘学科包含哪些东西,它的理论基础是什么,它是怎样发展起来的,哪些算法或者哪些模型对于推动学科发展起到了里程碑式的作用。

从科研角度讲,掌握这门科学的精髓或者核心,体现在是否能够以流程数据为中心对业务流程进行还原和分析,是否能够快速且深刻地捕获或者预判流程挖掘行业的最新需求,然后针对这些需求进行持续预研和攻关。具体而言,大家比较熟知的流程挖掘理论研究的标杆——Wil教授团队,不管是在荷兰时期,还是2018年后到了德国,一直都在引领本领域的发展方向,一个很重要的原因就是该团队在过去的20多年里能够一直深刻捕获行业的最新需求,并以此为基础持续流程挖掘理论和技术创新。据不完全统计,国际流程挖掘标杆企业Celonis的流程平台上大约有10个左右的算法,都是来源于Wil团队的早年的理论成果,把Wil团队的算法做了商业化。

36氪:这些算法要落地,需要经过哪些过程才能达到理想的效果?

刘聪:我认为整体分两个阶段。第一个阶段叫实验室工具,只做理想情况下的数据分析,并得到结果。这里面的数据一般假设没有噪声,十分完备,能够拿来直接验证方法的正确性和有效性。这是研究阶段的东西,主要是把整个算法的思路理清楚,明确要解决的问题。

第二个阶段就是商业机构看到自己有类似的问题需求,希望把实验室的算法商业化来解决问题。这个过程就是把实验室工具做得尽量通用和实用,能够适配不同的应用场景并产生实际的价值。比如说,我们团队现在研究的跨组织流程挖掘方法,通常用开源的测试数据集来验证我们提出方法的准确性和有效性,如果商业化的话就需要根据实际的应用场景进行适配和优化。再比如,实验室算法对时间性能、稳定性要求一般不会太高,结果的可视化可以不美观,但是如果要对其进行商业化应用就要做到高性能、高稳定性、且对用户友好。这就需要在熟悉流程挖掘算法基本原理的基础上,对软件架构和产品进行重新设计。

商业工具会用实验室算法,说明实验室算法满足了他们要解决的问题需求,但是又不能直接拿来用,因为场景不一样。做学术研究的人,大部分不了解实际场景中的具体需求,只能根据自己的理解做抽象和简化。做研究的前提是有假设,但这些假设在商业环境中并不是100%适用,不适用的部分就要去和商业工具做适配,但是整体研究的思路是延续下来的。

36氪:这里有很具体的例子吗?

刘聪:包括Celonis在内的大部分商业流程工具,都提供了流程浏览器(包括活动频次和边频次的调整功能)和流程实例的动画演示功能,其中流程浏览器的基本设计思路源于2002年的Heuristic Miner和2006年的Fuzzy Miner,流程实例的动画演示功能也是借鉴了Fuzzy Miner中基于token 的动画功能。

举个更具体的例子。比如说业务流程的合规性检查,就是用业务的标准流程和实际数据对比,看业务流程在实际执行过程中有没有违规和偏差。这个算法的原型是2004年左右提出的经典托肯重演算法,其本质也是基于Petri网的引发规则形成的一套方法。Celonis在2018年左右正式做了商业化应用。目前为止,国内有这个功能的流程挖掘创业公司其实并不多。

36氪:整体来看,流程挖掘由哪些模块组成?

刘聪:从学科上来讲,分别是模型挖掘(从业务日志里还原流程模型)、合规性检查(将业务的实际执行日志和业务标准模型进行比对)和模型增强。其中模型增强是在已有模型(可以是挖掘得到、也可以是已经存在的标准流程模型)的基础上,增加效率、时间、瓶颈、堵点等洞察的信息。

预测性监控(对流程未来执行情况的预测,以便于风险的提前掌握、早期预备和有效防范)最早并不是传统流程挖掘的范畴,或者说不是最早的主流研究方向。是在加入机器学习、深度学习后,逐渐成为流程挖掘领域的一个新的研究热点。结合产业发展来看,我们提到的超级自动化平台,可以把流程挖掘作为平台底座,其核心功能是通过前期的分析和洞察,对业务进行实时的预测性监控,并通过动作引擎来实时干预指导业务流转,进而完成整个流程自动化闭环。

36氪:现在产业界是否形成共识,流程挖掘落地时主要是哪些步骤?

刘聪:我认为有基本共识。流程挖掘项目的初始点是企业数据库中记录的各类业务数据。所以第一步是针对数据的ETL,E是extraction(抽取),T是transformation(转换),L是 loading(加载)。就是把数据先提取再做清洗转换,最后导入到流程挖掘的平台里。

第二步是 visualization(可视化),把数据转换成用户能读懂的流程图和各种报表来对应业务相关的基本KPI,实现流程数据的可视化。

第三步是做洞察,包括合规性检查、瓶颈检查、根因分析等,本质上是诊断流程执行中存在的问题。

第四步是根据这些分析和洞察,发现流程的堵点和瓶颈,并给出业务优化和重塑的建议。整个过程迭代进行。

以上介绍的步骤是纯线下的分析,如果考虑线上或者业务分析的实时性,就要求进行实时的流程预测性分析,再根据业务要求通过动作引擎实现对业务系统执行的管控。这样,实时业务数据监测、预测和管控的自动化闭环就形成了。

36氪:你觉得流程挖掘项目落地过程中,哪个环节投入最大?

刘聪:这个需要具体问题具体分析。如果是针对P2P或者O2C这类标准流程挖掘项目,有标准和模板可以参考,整个过程自动化程度很高。如果是针对非标准流程的挖掘项目,把原始数据转换为流程挖掘工具能用的数据,这里面的工作量很大,通常会涉及到跟甲方业务部门和IT部门的对接,据不完全统计能占到流程挖掘项目总耗时的70%-80%。后面导入到流程挖掘平台里做分析,相对来说快很多,因为都是平台支持的自动化分析过程。后期的交付过程可能也相对较耗时,因为需要行业背景,可能也需要甲方业务部门的参与,甚至会需要咨询类公司的介入。就是一般情况来讲,从开始接触到最后完成项目落地,根据Celonis的经验,最快需要1个月,一般的复杂流程需要3个月左右可以完成交付。

36氪:我们了解到,一些流程挖掘公司会寻求处理日志数据的厂商来提高效率。

刘聪:这是个办法,但是也很难从根本上解决ETL的耗时问题,除非流程挖掘平台跟客户的数据库直接建立连接。根本问题在于,国内现在各种各样的数据库很难做通用的ETL数据处理,厂商只能慢慢地增加其产品支持的数据库系统,随着做的项目多了,接触的类型多了,经验就丰富了。比如,Celonis目前可以支持数十种数据库类型的连接。然而,国内的流程挖掘产业发展历史相对较短,行业经验积累相对匮乏,都是先参考国外的,边做边学。

36氪:合规性检查环节,你刚才提到Celonis在2018年才上线这个功能,国内有这个工具的创业公司很少。但在调研中,很多国内流程挖掘公司都说,之后要给用户提供一个比较好的算法标准做对比,你怎么看?

刘聪:首先,合规性检查作为流程挖掘平台的基础核心功能已经是国内外行业从业者的共识。目前为止咱们国内的大部分流程挖掘产品可能还没有(或者是没有完全)上线这个功能,但是这已在他们研发的pipeline里了,相对而言离完全实现只是时间问题。这个算法实现起来有些门槛,可以参考的学术工具和算法通常效率很低,而且在处理实际数据过程中可能会有很多漏洞,这是需要初创公司自己研发补全的内容,需要时间和研发成本。

36氪:国内不能引入这样的算法吗?

刘聪:能引入,但事实在于Celonis用的合规性检查算法是不会对我们公开的。虽然已有的学术工具和算法有开源代码,但不能拿过来直接用,因为可能会出现各种各样难以预料的bug目前商业工具里面有一个规律,就是越开源的东西越不敢直接拿来用,都需要做改进。改进的过程中就要懂原理,至少需要读懂原来的代码,然后根据公司的具体情况做适配和优化。此外,即使做完合规性检查找到流程执行过程中的偏差,还要进一步做偏差配套的”根因分析”,以实现对偏差原因的快速定位,这也需要研发人员对流程挖掘原理有很深的理解。我认为国内公司肯定能开发出来这些算法,但是问题是由于目前我国流程挖掘产业还处于初级阶段,研发人员的比例低和经验相对不足,缺少产品在大量真实场景下的实战检验,这也是当前国内流程挖掘初创公司大都面临的一个难点

36氪:这个算法到底有多难理解?

刘聪:如果熟悉Petri网理论的话整个思路会很直观,因为托肯重演的合规性检测方法就是按照Petri网的引发规则制定的,但是国内流程挖掘行业的从业者懂Petri网的人相对较少。Petri网本质上是一个有向二部图,其理论基础是矩阵论,建议有这方面需求的流程挖掘从业者可以找这些资料系统学习下。

另外,Celonis成立于2011年,一直到2018年才正式加入合规性检查功能,估计也有市场需求的问题。可能最早的市场需求就是基于日志数据的流程还原和各种KPI分析,告诉用户流程执行过程是怎么回事,针对合规性检查方面的需求相对较少。因为合规性检查对数据的要求更严格,需要用户提供标准的业务规范再做对比。但在实际应用中,这个需求可能没有那么迫切,所以过了好多年才加到标准的分析平台上。

我了解到Celonis在2016-2017年就开始往里加这个功能了,但是2018年才相对成熟并商业化应用。当时我在Wil组里读博士,Celonis公司的研发人员经常去我们组交流,并针对他们的需求调研最新理论研究进展,类似从实验室到业界转化的流程挖掘算法还有很多。