高级工具挖掘数字知识

亚历克·沃克(Alec Walker)23 十月 2019

创新的搜索技术可优化数字信息访问以进行决策

高级管理人员根据支持人员收集的可靠信息制定战略决策。在大批人员变更之后,支持人员的构成和技能组合大相径庭,分为两类:

  1. 经验丰富的主题专家(SME),他们阅读并撰写了许多公司报告,并拥有多年实践经验。
  2. 新聘的千禧一代和年轻工程师,具有有限的现场经验,并配备了标准的企业搜索工具。

当然,由于专业经验和背景的不同,两个小组收集的信息也会有所不同。知识库的差异会影响决策行动。在许多高级中小企业已经退休的情况下,公司需要一种更好的方法来保留其公司信息并将专业知识转移给经验较少的员工。

通过先进的解决方案保护公司知识产权
创新的系统和软件可以吸收经验丰富的中小企业的知识,并为新工程师和支持人员提供访问渠道。自然语言处理(NLP)是一项创新技术,可以从数字文本文件中查看和检索非结构化数字信息。多个行业已成功使用基于NLP的虚拟顾问来协助员工查询数字文档。 [1]这种方法类似于使用SME即时回答问题,并具有可同时供整个团队使用的额外好处。 [2,3]

企业NLP解决方案基于“理解”行业从业人员使用的上下文词汇和语法。尽管对算法的理解似乎有所不同,但实际用途类似于人类如何找到有关操作和安全问题的技术问题的正确解决方案。完善的NLP工具可以:

  • 提出问题
  • 提取查询意图
  • 在历史数字文件中彻底搜索短语和段落
  • 返回相关信息以满足问题的意图。

在石油和天然气(O&G)等经过大量记录的过程驱动型行业中,这种能力价值数百亿美元。对于许多能源,制造和O&G公司而言,运营效率是重中之重。不幸的是,行业从业人员花费80%的时间来寻找答案,这些答案被锁定在公司信息中。 [4]

那么为什么NLP解决方案没有在O&G行业中广泛使用?困难在于设计一种适用于O&G的NLP工具,而又不会局限于一次性使用案例。大型咨询公司提供信息搜索工具,但是这些解决方案是为跨多个行业的更广泛应用而设计的。产品的最终容量是最低的公分母。为了在O&G行业中应用,这些“空白”工具要求客户提供大量且昂贵的时间来培训该工具。此外,如果未为O&G设计基础模型,则最终工具的总可能价值会降低。

相反,开发特定于单个O&G应用程序的工具是一种艰难的业务模型。一次性案例的市场规模较小,因此限制了投资机会。一个有效的工具必须专门针对O&G行业,而且还必须足够灵活以处理其中的各种应用程序。

©katwijksenieuwe / Adobe Stock Innovation满足O&G行业的需求
已经出现了一种先进的解决方案,它专注于O&G业务的需求。该工具已在石油专业的勘探地质中成功地商业应用。相同的工具已成功地在一家跨国化工公司的炼油厂运营和工程中应用。采用领先的NLP解决方案的更先进的公司将在不断变化的市场条件下获得竞争优势。

证明基于NLP的虚拟顾问工具。进行了研究,以定性衡量基于NLP的虚拟顾问的有效性,并将其与当前的O&G行业方法进行比较。一个基于NLP的虚拟顾问开发人员拥有的完善的技术论坛,鼓励用户发布有关上游和下游问题的技术问题。同样,该论坛汇编了行业专家的答案。论坛的用户包括来自全球(加拿大,中国,德国,印度,菲律宾,沙特阿拉伯,韩国,台湾,英国和美国)的运营商,工程师和中小型企业。在2018年6月,基于NLP的虚拟顾问被添加到了论坛的顶部,现在可以访问论坛的内容以制定最准确的查询答案。为了确保大型国际O&G公司拥有足够的知识和资源,在开始比较研究之前,已在论坛中记录了6,000个非结构化数字文本文件。

在验证练习中,向中小型企业展示了来自基于NLP的虚拟顾问的问答对。中小企业得出的结论是,基于NLP的虚拟顾问能够像经验丰富的人一样解释和处理信息的技术细微差别。例如,当被问到“什么是汽油产品规格?”时,这位基于NLP的虚拟顾问发现了与“汽车精神”(主要是英国本土语言)有关的答案。该系统从中小型企业所做的研究中推断出了汽车汽油与汽油的这种联系。

时间与准确性
除了展示质量上的好处外,本研究还研究了该论坛与基于NLP的虚拟顾问之间解决方案的相对成功。在接收和回答问题所需的时间以及所检索信息的准确性方面衡量成功与否。人类回答论坛问题的时间平均为1.5天。在许多情况下,一些用户浏览了以前的帖子以寻找答案,因为相关信息被大量不相关的信息遮盖了。

相比之下,基于NLP的虚拟顾问可以在几秒钟内检索到答案。从与用户的访谈中,可以假设,这样大大减少了接收答案的时间,导致对后续材料的后续查询增加,而不仅仅是重新编写第一个问题。获得实时反馈会促使人们好奇地学习有关该主题的更多信息,从而模拟了与SME的信息交流。

除了减少接收信息的时间以外,基于NLP的虚拟顾问还可以返回比论坛提供的答案更准确的答案。用户对论坛中给定问题发布的回复的中位数是在所有样本中的两倍。但是,在所有采样中,基于NLP的虚拟顾问基于所有论坛信息生成的响应的中位数为10。通过为每个问题返回多个答案,基于NLP的虚拟顾问被证明更有可能暴露未解决问题的争议,补充信息形成了更完整的答案和用户所持的错误假设。

©Serge Bertasius / Adobe Stock

例。当问及基于NLP的虚拟顾问“单个浮标系泊(SBM)站处理的流量是多少?”时,它返回与SBM站的特定实例相关的答案。它还返回“ SBM处理的流速取决于管道尺寸的变化”,然后解释如何发生。当一起查看这两个答案时,表明存在一个SBM站不止一种设计,并且必须考虑范围或必须指定特定的SBM。如果没有基于NLP的虚拟顾问,则经验不足的用户搜索信息将在文档中找到单个值并以不完整或错误信息结束搜索的可能性增加。两者都是有问题的动作,会导致使用错误的解决方案并造成危险情况。

基于NLP的虚拟顾问的一般用户对生成的答案表示满意。每当用户向虚拟顾问工具提交问题时,系统都会提示他们选择将问题发布到一般论坛。对工具的满意度的衡量标准是用户选择不向通用论坛发布问题的可能性。用户可能有其他原因不发表他们的问题。在所有抽取的样本中,选择发帖到论坛的情况通常接近20分之1,因此满意率约为95%。

保留企业知识
O&G公司拥有大量的数字数据和知识。不幸的是,随着经验丰富的中小企业退休,新的技术人员将需要先进的工具来收集有价值的信息。可以对基于NPL的虚拟顾问进行培训,以了解O&G行业的详细信息。这样的方法可以高效地审查数字文档,并为决策提供高质量的信息。有了更好的工具,经验不足的员工将获得更多的知识并富有成效。

基于NLP的虚拟顾问可作为O&G行业技术团队的虚拟个人顾问,并在了解他们自己的数据的基础上提供实时建议。


[1] Bogdanov,V。,“ 8个发人深省的NLP案例和企业中文本挖掘的使用,2019年2月15日。

[2] Meyers,Kate,Brown和Meyers,“保险公司使用NLP技术分析文本并减少欺诈”,2014年3月19日。

[3] Chickowski,E.,TechTarget,“企业中的5个增强分析示例”,2019年8月20日。

[4]拉森,Å。 H.Equalor CIO主旨演讲,石油工程师协会数字化转型研究小组,数字化转型年度大会,2019年5月10日,德克萨斯州休斯敦。


Alec Walker是位于德克萨斯州休斯顿的人工智能公司DelfinSia的首席执行官兼联合创始人。他拥有斯坦福大学商学院的MBA学位和莱斯大学的化学工程学士学位。 Walker曾为包括英特尔,Inditex,AECOM和通用汽车在内的各种领先组织领导数字化转型和内部创业项目。他曾在壳牌公司任职,担任碳氢化合物提炼小组的技术服务工程师,技术工具软件产品经理以及非常规O&G的油藏工程师。

Categories: 技术