-
从数据中挖掘“金矿”的我们
数据挖掘技术就是当今信息科学一个新热点,其涵义是综合运用多种算法,对从多种渠道来的大量数据进行计算机处理,通过去粗取精、去伪存真、由此及彼、由表及里的信息加工,抽提有用信息,发现自然规律。化学、化工是实验科学,是积存数据的“大户”,是数据信息挖掘技术大有可为的“用武之地”。它不仅可用于化工生产优化、辅助新产品试制,而且在分子设计、材料设计、化合物和物系的性质预报等基础研究中也能发挥很大作用。此外,环境保护、地质勘探、医疗诊断和生物信息科学研究中,都可能利用它打开新局面。
模式识别是数据信息挖掘技术的主要方法之一,我们的算法和软件综合运用多种模式识别方法,并与回归方法和人工神经网络、遗传算法等相结合,组成复杂数据的信息处理流程。我所著名化学家陈念贻研究员是国内化学界最早应用计算机模式识别技术的学者,又将化学模式识别技术推广应用到工业优化,开拓了在化学化工数据中的“淘金工程”。他带领的课题组长期从事数据挖掘在化学、材料科学以及冶金、化工生产技术中的应用研究,创立“化学模式识别优化新技术”。
20世纪30年代,以泰勒为首的管理学家开始对影响生产效率的因素进行研究,试图寻求一种生产效率最高状态,而由陈念贻研究员为首开创的模式识别优化技术也在于提高企业生产效率,所不同的是他的研究对象从“人”转移到了对客观环境的控制。众所周知,在现代企业和科学研究机构中,生产和科学实验的过程中记录了大量的数据,这些数据中包含了许多有用信息和科学规律,只是复杂的数据将不少有价值的规律深深地埋藏起来,人们难以发现罢了。化学模式识别优化技术就是研究如何从数据中寻找规律,并用这些规律指导和优化生产或实验。
从1984年开始,他带领着课题组和研究生将化学模式识别技术推广应用于我国化工、炼油、钢铁等工业领域,自主开发了化学模式识别优化软件,并首次应用于上海高桥化工厂改善顺丁橡胶生产线的产品质量。在不改生产设备和生产流程、不干扰生产的情况下,只用计算机模式识别技术分析车间的生产记录数据,找出有关生产规律,建立了超平面识别模型,仅通过修改生产操作规程,使生产线产品的质量、收入均上升,年增效益102万元,就这样从生产线的数据中挖掘出了第一桶金子。此项目获得1985年上海市科技进步二等奖。
第一桶金子的挖掘成功,引起了中石化总公司的高度重视,总公司发展部资助陈念贻课题组研发经费使用于优化南京炼油厂的炼油装置。第一个项目选择的是溶剂油抽提系统生产线,课题组人员在生产线数据中进行优化建模后用于指导生产操作,使收率大幅上升,年增效益200多万元。中石化总公司当时估算若在中石化系统全面推广,年效益可达数亿元,为此1987年还在辽阳召开专门的会议宣传推广。
南京炼油厂开始对课题组全面开放,科研人员与工厂的科技人员一起,又先后在加氢裂化装置、焦化裂化装置、铂重整装置上进行成功优化,从这些装置的生产数据中挖掘出了一桶又一桶闪闪发光的金子,使企业的年效益增加达1350万元以上,从而获得中石化总公司1989年的科技进步奖。
我们开发的这一具有中国特色的技术已涉及我国化工、炼油、钢铁等工业领域,在我国北起黑龙江大庆,南到广东茂名二十多个工业城市的近百个工厂或车间推广应用,应用于宝山钢铁公司、南京炼油厂、郑州铝厂、上海石化、扬子石化、大连石化、大庆石化、锦州石化、锦西石化、抚顺石化、茂名石化、安庆石化、石家庄炼油厂、南充炼油厂等数十家大、中型企业,完成了数几十个装置的优化项目,取得了节能、节原材料、提高收率、改善质量、降低成本、减轻污染等多方面的效果,创造经济效益逾亿元,并均由省部级组织的专家组鉴定获得通过,先后获得了大连市科技进步奖、辽宁省科技进步奖、广东省科技进步奖、河北省科技进步奖等。已记不清陈教授多少次站在学习班讲台上,为工人、技术人员讲授模式识别优化技术;多少次和同事们在生产第一线,研究生产中遇到的问题;多少个不眠夜,挑灯夜战,苦苦思索最优工艺条件。
由于推广工作成效显著,“化学模式识别调优方法”也引起了国家有关部门的重视,被当时的国家经委、国家计委列入“七五”、“八五”国家新技术重点推广计划,被国家科委列入第一批国家级科技成果重点推广计划,于1997年被国家经贸委表彰,颁发了“‘八五’国家技术创新、新技术推广优秀项目”的奖状。
与此同时,在863高科技项目中,一批新材料研制单位运用模式识别优化技术辅助多种新材料研制,也取得了改善材料性能、提高成品率的明显效果,表明这一技术在新材料、新产品试制工作中应用的价值。我们还将这些算法用于相图计算和物性预报,开拓了新的研究领域。我们开发的新算法和软件也在美国福特公司以及瑞士、新加坡、巴西等国的企业和科研单位推广应用,并取得效果。
陈念贻研究员在推广化学模式识别优化技术的同时,一篇篇论文刊登在国内外的杂志上,其卓著的贡献特别是在石油化工领域中的应用,在1989年被当时的国际化学计量学会主席、美国华盛顿大学教授B.R.Kowalski称赞:“由于你们的工作……中国的化学计量学在工业中的应用成为世界的先导……走在了美国的前头”。
“化学模式识别及其应用”项目于1990年6月通过了由师昌绪院士领衔的专家组的成果鉴定,获得了1990年度国家科技进步二等奖,同时还获得国家自然科学奖、“863”工作奖等10项科技奖励。在国内外学术刊物上发表学术论文380篇,出版《模式识别方法在化学化工中的应用》等学术专著4种。
近年来,模式识别优化技术边应用边改进,在“863”计划的支持下,这一技术已从单纯地应用几种模式识别方法发展成应用多种模式识别方法和人工神经网络、遗传算法相结合的方法,并增加了数据实时采集功能,实时优化自动控制,逐渐从需要有经验的人通过人机对话来使用软件发展成减少人工干预,较易掌握的商品化软件。同时,推广方式也从单纯地派人下厂承包优化项目发展成转让软件,培训和辅导工厂人员自己应用,以解决生产中问题的形式,更便于大面积推广。
如今是大数据时代,我们相信我们的数据挖掘调优技术可以从海量的数据中淘到更多的“金矿”。
(作者:钦佩 原物理化学室高级工程师)