结构化处理方法-数控滚圆机滚弧机折弯机张家港电动液压滚圆机滚
作者:lujianjun | 来源:泰宇机械 | 发布时间:2019-06-13 14:43 | 浏览次数:

介绍中文保险合同格式条款的数据结构和概念层次,将其非结构化的保险条款数据集作为处理对象。首先对保险格式条款结构及含义进行分析和研究;其次利用模板提取和匹配方法对其进行结构化处理,将其转变为结构化数据,实验表明该方法能获得较高的准确率。保险责任”,在保险责任部分,按语义内容可提取指标和对应指标值“主体:被保险人”,“原因:疾病”,“给付:重大疾病保险金”。2保险格式条款机构化处理方法本文提出的基于中文健康医疗保险合同格式条款的结构化信息抽取方法主要涉及到自然语言处理[9]的分词、文本聚类、文本相似度计算、正则表达式匹配等技术,整个处理过程主要包括5部分结构化处理方法-数控滚圆机滚弧机折弯机张家港电动液压滚圆机滚弧机折弯机,分别是:合同条款数据的预处理、模板提取、领域词库构建、信息抽取和纠错校验,其具体流程如图2所示。2.1文本预处理由于保险格式条款的获取渠道和文本形式不尽相同,  本文有公司网站全自动滚圆机采集转载中国知网整理 http://www.gunyuanji.com  所以在保存数据前需要对收集到的大量不符合结构化要求的数据进行前期处理,将表格形式、网页格式的文档转换为纯文本文件,且为了能在抽取过程中进行字符串匹配对获取的文本数据按需要进行编码转换。保险合同格式条款单个数据量比较复杂,依据事项关键字匹配对其进行分类。由于保险条款存在一定的法律意义,所以数据相对正确性较高,无需进行清洗工作,只需根据断点进行长短句切分。图2保险条款结构化流程Fi领域词库构建在保险合同格式条款中,对很多保险事项内容的描述都采用了医疗保险领域内的专业术语或固有词组进行表达,如“投保”、“保险期间”。并且其中包含很多在语义上不可分割的较长的字符串词组,如“重大疾病保险金”。本文首先采用结巴分词工具对文本数据进行分词,首先去除停用词,然后利用TF-IDF统计算法筛选出文本数据集中比较重要的词语,应用N-Gram模型套用贝叶斯公司计算词语的共现度,从而得出数据集中复结构化处理方法-数控滚圆机滚弧机折弯机张家港电动液压滚圆机滚弧机折弯机  本文有公司网站全自动滚圆机采集转载中国知网整理 http://www.gunyuanji.com