业界使用的模型本质上有两种类型:一种是研发设计阶段的建模,目的是生产出与模型一致的物理产品。这时,一般是先有数字世界中的模型后有物理世界中的实体。另外一种是针对特定客观对象的建模,目的是让模型与客观对象吻合。这时,往往是先有物理世界中的对象,后有数字世界的模型。本节讨论的是后一种建模。这种模型是参照实际数据建立的,人们希望模型的结果与实际数据吻合。
针对特定物理对象的数据建模有两个层次的用途:一种是模型的正向应用,用于预测或计算某个变量;一种是模型的反向应用,用于优化和控制。前一种用途的模型不一定采用因果关系,而后一种用途的模型则要符合因果关系。
模型应用的场景
完整地理解模型的重要性,就要理解模型的局限性。我们前面曾经谈到,模型都是有误差的,这很大程度上限制了模型的应用。在维纳的理论中,通过反馈来应对模型的误差问题。传统控制论的模型,往往针对线性系统。线性系统往往适合用参数变动比较小的场景下。但智能时代的模型,往往针对的是变化范围变化较大的场景。这样的场景,往往是非线性的。
所以,基于工业数据建模,往往面对的是大范围和高精度的矛盾。下面我们会讨论:这样的矛盾是如何产生的,又是如何解决的。
数据建模的基础
很多人认为,工业数据建模的原因是“原理不清楚”。事实上,工业对象都是物理对象,都符合自然科学的规律。工业对象是人造对象。人们建立物理的工业对象时,往往也都是在科学原理的指导下做成的。
有些人不明白:既然科学原理清楚了,为什么还要建立模型。工业人建立模型的原因有两个:首先是科学模型是抽象的、工业模型是具体的。从抽象走到具体,需要给出若干参数。而这些参数并不一定容易获得。其次,科学原理针对的都是简单对象,工业对象却往往是复杂的系统,需要大量的参数。参数多的问题是:如果参数准确度不高,理论模型的精确度就会低到难以忍受的程度,无法满足工业生产的需要
下面给出一个形象的说法:某个工业对象可以用函数描述,假设它的理论模型是。应用模型时必须依靠现实中能够获得的数据。现实中,X往往是无法准确、及时获得。这时,人们要设法在可以得到的数据中,寻找一些与X相关的变量,如Z。于是,现实的数据模型往往就变成。
某厂发现:一种材料的合格率与生产这种材料的班组有关。事实上,合格率与某个工艺参数有关,不同班组采用的工艺参数不一样。但每个班组采用的参数不同、也没有记录。所以,人们看到的是合格率与班组有关。在这个例子里,工艺参数就是X,而班组就是Z。
人们经常发现:材料的性能与生产的季节相关。本质上,材料的性能与生产材料时的温度、湿度、空气流动的综合情况有关。在这里,温度、湿度、空气流动情况是人们需要的X,而生产季节就是Z。
人们预报钢水温度时,采用了一个经验做法:如果盛放钢水的钢包是第一次使用,则钢水温度降低5度。真正的原因是:钢包第一次盛放钢水时,钢包壁是比较冷的,钢水温度降低得更快。但是,人们容易得到使用次数的参数,却不容易得到钢包壁温度相关的参数。
变量的选取是非常重要的。变量的选择不同,最终的模型就不一样。其中,一个重要的差别是:模型的精度和适用范围不一样。对科学理论模型来说,模型的精度高往往意味着适用范围大,而现实的模型则不一定。从这种意义上说,模型精度未必是是越高越好。
工业企业追求稳定,而模型往往用来应对不稳定的工况。工况稳定的时候,参数波动的范围往往较小,简单的线性模型往往就可以奏效。复杂模型往往用于不稳定的场合。用于不稳定的场合时,对模型适用范围的要求就会比较大。
有些人开发的模型精度比较高,却不能得到生产厂的认可。背后的原因是:模型在生产稳定的时候精度很高,在生产不稳定的时候精度较低。由于多数时间的生产是稳定的,模型的平均精度往往较高。但是,生产稳定的时候,工人对模型没有需求;工人对模型有需求的时候,往往是生产不稳定的时候。
模型精度和适用范围的矛盾,是建模时最常见的问题之一。
工业大数据时代的机会
大数据时代的重要机会,就是可以用简单的方法建立好的模型。
从A地到B地时,要找到一条速度最快的路径。理论上讲,建立相关模型时需要给出许多参数,如距离、行驶速度等。而行驶速度,受到各种不确定因素的影响。在大数据的背景下,这个问题就容易解决了:看看其他人怎么走的、花了多少时间。找到合适的走法,按照他们的路子走就是了。为了提高精度,还可以根据日期、时段和道路事情情况做些修正。
事实上,工业大数据的方法,早已出现在前人的实践中。这类方法的基本思路就是:找一个类似的做法,在此基础上进行修订。
钢水冶炼前,需要给出合适的工艺参数。计算过程涉及到很多参数,不容易算对。解决这个问题的思路:先从历史数据中找类似的成功案例。以此为基础,根据案例炉与本炉次的参数差异进行修正。
热轧带钢轧制结束后,需要确定冷却水阀门的打开组数,以便冷却到特定的目标温度。在冷却过程中,冷却速度受钢种、厚度、起始温度、冷却目标温度、冷却水温度等多个因素的影响,纯粹的机理模型很难准确计算。解决问题的办法是对带钢进行分组,在每个分组内确定一组与冷却速度有关的参数。在此基础上,对具体带钢参数进行变换、得到对于的冷却制度,并根据实测结果对参数进行修订。在某些钢铁企业,响应的分组有几万个。
我们注意到:上述方法其实解决了模型的应用范围大和精度要求高之间的矛盾。外表上看,模型适合于各种产品、应用范围很大。在这个范围内,模型本质上可能是非线性关系。但是,通过寻找类似的案例,就自然地回避了非线性问题。而历史的案例,本质上是实践积累的结果。具体地看,非线性模型本质上是由若干个小模型组成的,每个模型的应用范围很小。这样,就可以在每一个小的范围内设法提高模型的精度。在这个小的范围内,参数的影响往往可以用线性模型或者广义线性模型近似。在范围足够小的时候,人们就可以采用反馈调节等手段,进一步提升模型的精度。
我们曾经提到:工业对象复杂、对精度要求高的时候,知识往往来自于实践。上述办法本质上就是把实践中行之有效的做法记下来,用于指导下次的实践。从本质上讲,这种办法与PDCA持续改进的思想是一致的。但这种持续改进是由计算机自动完成的。
对从事算法研究的人来讲,上面的思想其实并不新颖。所谓近邻方法、CBR方法、模式识别、R2R等方法,基本上就是这个思路。但是,在过去数据基础有限的条件下,这些方法不一定能用好。比如,人们可能找不到相同或者类似的案例。
在笔者看来,工业大数据的根本优势是数据的质量好。质量好的一个方面,就是数据分布范围大,覆盖了各种可能发生的情况。这就是所谓“ 样本等于全体”。在这样的前提下,就总能从历史上找到类似的案例。所以,大数据的本质优势是数据来源全面,而不是数量多到什么程度。如果数据存储得足够久、场景存储得足够多,新问题就会越来越少,这类方法就容易走向实用了。
以设备故障诊断为例。针对单台设备研究问题时,故障样本就少,甚至每次都不一样。但是,如果把成千上万台设备的信息收集起来,情况就不一样了:每次出现问题,都容易在历史数据库中找到类似的案例。这时,人们研究的重点,往往是如何利用理论的指导,更加准确地寻找类似案例、更加准确地修正。
“戒烟最容易了:我都戒过100多次了”。
从事数据建模工作时,往往就会遇到这样的问题:用一批数据建立数学模型,结果非常理想。但不久以后,精度却很快降低下去、无法继续使用。所以,许多结果很好的学术论文,在现实中却是没有用的。为什么会出现这样的问题呢?
有个小朋友说:穿红裙子的人是我的妈妈。在特定的时间、特定的地点,小朋友的话是正确的。但如果换了一个场景、换一个日子,这个判别标准可能就错了:妈妈可能不穿红裙子了,穿红裙子的女士也可能有很多个。
数据建模的失效常常也是类似原因导致的:当场景变化时,模型很容易失效。要解决这样的问题,必须综合运用多个方面的特征。
许多人脸识别算法非常成功。有的算法在人脸上找到了一百多个特征。识别时综合考虑这些特征,就不容易出错了。有些罪犯过了几十年、相貌发生了很大变化,机器仍然能识别出来。
在大数据时代,数据的完整性很好。人们有可能找到若干独立的特征进行综合。这样,模型识别的准确率就大大提高了。
第四范式与科学规律发现
自然科学规律本质上也是用数学模型描述的。自然科学规律的特点是:模型精度高、适用范围大。我们前面曾经提到,经典科学原理往往有个特点:变量的数目非常少。这背后有个重要的原因:
科学结论都是需要经过严格检验和论证的。按照科学哲学的观点,科学理论的基本特征是可证伪性。所谓的可证伪性,就是理论上存在一种验证办法,如果验证结果与理论不符,就可以证明理论是错的。如果一个理论涉及到的因素少,就容易证伪。
复杂问题的影响因素多,不容易严格论证。例如,新药的开发困难,就与此有关。在大数据时代,这类问题可能得到改变。图灵奖得主吉姆·格雷(Jim Gray)将科学研究分为四类范式(Paradigm)即实验归纳,模型推演,仿真模拟和数据密集型科学发现。其中,最后一种就是通过大数据发现科学知识。
理论上讲,许多工业过程都可以用科学公式来描述。但现实的影响因素太多。化工、冶金等行业的一种典型的现象是:在同一个生产过程中同时存在着几十种化学反应。每个化学反应都可以用简单的化学反应方程来描述。但反应之间互相影响,许多参数会动态变化、无法准确确定,整体的化学反应过程就很难准确描述。
钢铁材料中的很多物理和化学变化是在固体中进行的、反应过程不充分、不彻底。故而导致产品质量与工艺过程密切相关。钢铁产品的力学性能是多种元素的含量和工艺参数综合影响的结果。力学性能与影响因素都是可以测量的物理量,而成分和工艺可以决定性能。理论上讲,存在一个科学的公式来描述性能与成分、工艺的关系。
对于这样的情况,传统的办法很难建立准确的模型。除了问题本身复杂外,一个重要的原因就是许多干扰是不可见的。这就会对模型的验证带来巨大的困难。
在大数据的背景下,为解决这类困难提供了可能。一个重要的原因是:当数据量足够大的时候,随机干扰是可以通过平均的方法滤除的。这相当于数据的精度可以大大提高。同时,大数据还可能为人们提供较好的样本分布,有助于复杂问题的解耦,即把复杂的、变量多的模型简化成若干变量数目少的简单模型。模型简单以后,也便于科学地验证。
模型简化的过程,其实是一个猜测和排除的过程。这一点和传统的科学研究非常类似。是一个循环往复、不断深入的过程,需要不断地进行定性判断和定量的估计。在这个过程中,科学知识和数据中反映出来的现象可以共同起作用。人的经验也是非常重要的:优秀的专家往往“猜得准”,能够提高研究的效率和成功率。
需要特别指出的是:这样的研究并不能保证成功。成功的必要条件是数据本身决定的。一定数量的科学实验和仿真研究也是必要的。
作者:郭朝晖(工学博士,教授级高工。企业研发一线工作20年;优也科技信息公司首席科学家;东北大学、上海交大等多所院校兼职教授。国内知名智库、走向智能研究院的发起人之一。原宝钢研究院首席研究员)