摘要:针对外部涉税数据利用工作中存在的问题,通过数据标准字典化、处理规则模型化、处理成果产品化和处理工作机制化,提高内外部涉税数据关联匹配工作质效。
外部涉税数据必须与税务内部涉税数据匹配融合,形成统一的涉税数据资源,才能有效分析应用。
一、外部涉税数据处理工作的必要性
(一)赋予纳税人识别号
税务部门用纳税人识别号标识企业和自然人,第三方部门却有其特有的标识方法,导致外部涉税数据无法直接利用。必须针对各类数据的业务特点,利用其他辅助信息构建匹配规则,给外部数据赋予纳税人识别号。比如,房管部门提供的房地产开发项目信息,要通过企业名称、项目地址、项目名称、企业法人等数据项与内部数据中的税务登记、发票信息等关联匹配,对房地产开发企业或项目生成纳税人识别号。
(二)按税收业务重新定义
外部数据是各个部门按其业务逻辑生产出来的,其数据结构与税收业务不相一致,必须进行转化和重新定义。比如,工商部门提供的企业股权信息,包含所有股权人名称、代码和投资比例等信息,是一段复杂、无结构的自然语言文字,应转化成分股权人、投资比例和投资金额等数据项的结构化数据。
(三)治理提升质量
外部涉税数据大部分为文本格式,数据产生时没有统一标准,大量存在全角字符、空格、换行符、特殊字符等情况,导致数据分析的计算错误或无法准确匹配。必须按规范统一数据标准,将外部数据清洗、转换成为计算机可自动处理的数字或字符格式。
二、传统数据处理存在的问题
数据分析人员提出需求,技术人员编写程序,将外部涉税数据处理转换后,导入到税务数据库中,这种传统人工处理方式低质低效,不利于数据应用。
(一)缺乏标准规范
现行税务数据标准只包含内部数据,通过各种渠道获取的外部涉税数据,由业务和技术人员自行研究数据结构,再根据研究结果和以往经验处理数据,由于个人对业务理解程度和能力经验的不同,造成处理结果偏差失准。
(二)职责分工不明确
数据处理工作是比较复杂的过程,获取数据、处理数据、检验数据和改进方法等各项工作,容易在税务局和第三方、业务和技术部门、数据分析人员和数据提供人员之间产生分歧,影响数据处理工作质效。
(三)灵活扩展性不足
数据处理的知识由个别业务和技术人员掌握,整个过程不可视不可控,难以复制和扩展。第三方自身业务调整,提供的数据结构发生变动,只能由原负责人员调整,如果出现人员变动,就要重新开发,浪费时间人力,延长数据处理的响应时间。
三、智能化数据处理方法
建立标准化、流程化、自动化的数据处理生产线,高效准确的完成各类数据处理工作,夯实数据基础。
(一)外部数据定义字典化
为外部数据建立统一规范的数据标准,作为内外部数据匹配关联的“双语字典”。第一,明确外部数据的来源、格式、类型、业务含义等内容。第二,按照税务业务需要重新定义数据项。比如,前文所述的工商股权复杂文本数据进行解析转化后,定义为各股权人的明细列表数据。第三,建立外部数据与税收业务要素之间的关联关系。比如,房管部门提供的商品房销售合同网签数据,售方对应增值税、土地增值税的纳税人,销售金额对应增值税、土地增值税的计税依据,买方对应契税纳税人,房产面积对应房产税计税依据等。
(二)数据处理规则模型化
将数据处理方法固化成处理规则,分层次把数据处理规则整合为使用人员可视、计算机可自动执行、可灵活调整的模型,批量处理外部数据。第一,明确外部数据读取的时点、方式和内容。第二,明确外部数据中的非法和无效字符的处理方法,将非结构化数据转化为结构化数据。第三,分类整合内外部数据关联匹配的处理模型。比如,企业注册登记信息、企业股权变更信息、法院不动产拍卖信息等数据处理模型,给各类外部数据生成纳税人识别号。第四,明确处理后数据资源与税收要素的对应规则,将外部数据转化为可使用的数据资源。
(三)数据处理成果产品化
按业务类型将数据处理模型,组装成各类数据处理“流水线”,保证数据处理产品质量。第一,明确数据读取、清洗转换、关联匹配、定向输出等数据处理模型的运行顺序、触发条件和执行时间等,由计算机系统自动运行。第二,明确各环节检验标准,由计算机系统自动检验处理结果,不符合标准及时报警。比如,每月变更股权的企业数量应在一个确定区间内,房管部门提供的房地产开发项目与纳税人匹配率应达到95%以上等。第三,将符合检验要求的处理加工后的数据,标明来源、类型、时间、批次等,按税收业务导入到数据资源库对应位置。
(四)数据处理工作机制化
建立计算机自动处理和人工监控优化相结合的工作机制,要业务全面覆盖、技术可视可控、持续扩展优化,以准确高效处理数据。第一,设定专职部门和岗位负责数据处理,保证数据处理工作任务落实到位。第二,深入研究第三方部门的业务模式和数据结构,结合税收业务要求,制订数据标准,研发数据处理规则、模型和流程。第三,开发计算机平台,自动按流程运行数据处理模型,出现意外情况再由人工修正。第四,根据各方反馈信息、第三方业务变动、数据分析应用需求的增长,不断优化和扩展数据处理模型和工作流程,持续提高数据处理工作质效。
参考文献
1、赖慧倩,黄雅妮,加强涉税信息共享机制建设的思考【J】。税务研究,2016,(8):65-67
2、于佳曦,自然人涉税信息管理问题探究【J】。税务研究,2016,(8):68-69