对大数据审计中数据质量控制的几点探讨

发布者:沈磊 发布时间:2019-08-23 浏览次数:13

    数据质量控制的重要作用

    一是审计工作的需要。数据是业务的直接体现和反映,通过对数据初步总体的验证,确认数据是否真实、完整和准确,确认数据对被审计单位经济业务活动的真实反映程度,确认被审计单位信息系统所存储的源数据与审计人员采集的数据的符合程度,排除被审计单位有意隐瞒、修改数据的可能性。二是数据分析利用工作的前提。大数据审计不是在被审计单位的生产系统上开展的,而是在采集的数据上开展多部门关联分析。由于信息系统数据输入输出控制多样性、审计人员对多源数据库特性掌握程度不同等情况,可能导致采集的数据发生遗漏、错误。同时由于审计人员对数据的操作不规范或编写程序逻辑错误,都可能导致部分数据遗漏和错误。因此,审计人员在大数据审计中,必须对被操作的数据进行质量控制,确保数据的准确性和完整性后,再开展下一步工作。


    数据质量控制中的常见错误类型

    数据完整性错误。数据完整性错误指数据缺失。完整性错误是最常见的数据错误。产生的原因可能是被审计单位记录不完整,或是被审计单位没有提供全部数据,也可能是审计人员处理过程中导致数据缺失。数据不完整导致审计人员不能检查被审计单位的所有业务,严重的错误可能导致审计结论错误。

    数据一致性错误。数据一致性错误是指数据记录不规范和数据逻辑关系不正确、不完整。一些数据记录的规则未按照数据存储的一致规则记录,有些数据的逻辑关系出现了错误,还有些数据在抽取转化过程中,造成了数据不一致的错误,如各分项之和不等于总和。

    数据准确性错误。数据准确性错误是记录的信息存在异常或者错误。导致数据准确性错误原因有三种:一是数据值落在定义域之外。由于各单位、部门处理业务的管理制度、信息系统、行为习惯各不相同,导致错误发生。二是被审计单位信息系统应用控制缺失,导致录入错误未能发现。如学生的年龄超过100岁。三是数据在导出、整理过程中出现的字符型数据的乱码现象。
  
    空值(NULL)错误。在数据库中,空值不等同与空白或零值,其含义往往不确定,可以表示“不确定”“不知道”、“对象没有此属性”等。由于空值所代表的含义不确定,若不将空值表达成确定的值后再进行数据的汇总或分析,可能出现因为空值导致的错误。

  
    数据质量控制的思路方法

    核对记录数。核对记录数可以运用在数据采集、数据清理、数据转化等三个阶段。审计人员对采集到的数据必须进行质量控制,以排除遗漏和错误,降低由于被审计单位的刻意修改、有意隐瞒等因素带来的审计风险。将取得数据的记录数与被审计单位信息系统中反映的记录数核对,有原始资料的还要与纸质记录进行核对,确保取得的电子数据完整。在核对无误的原始数据的基础上,审计人员进行数据整理分析利用的过程中,仍需要核对记录的数量,判断其是否按照目标进行,确保避免因操作不当造成遗漏信息记录的情况。
  
    核对总数量。一是对采集的原始数据总数量进行验证。对非结构化数据(是指数据结构不规则或不完整,难以用逻辑二维表来表现的数据),将数据文件数量和大小,与被审计单位提供的数据清单进行比对,核实是否遗漏,同时还需要核实数据是否可用、内容是否完整;对结构化数据(由二维表结构来逻辑表达的数据)通过核对总数量、分类汇总分项数量,与信息系统中的数据进行核对。需要注意的是,即使数据没有显著异常,但仍然有可能记录的值是错误的,必须通过总量核对来发现。二是数据清洗、整理、加工后再次进行验证,审计人员进行上述等数据操作后(简单查询除外),均要通过数据验证来确认这些操作没有对数据的完整性造成任何影响,保证整理后的数据与原始数据总数量一致,确认审计人员对数据操作的正确性。

    验证数据表关键字段。对数据表中的关键字段进行一致性验证、错误值修改、空值(NULL)替换、冗余数据消除、保证数据值落入定义域等处理,以提高数据质量,为下一步工作做好准备。首先核实数据表字段是否齐备,关键字段值是否缺失,内容是否存在乱码。其次通过统计计算、分类汇总等方式,核实数据表内数据是否真实可信。可采取长度核对、最大和最小值审核、孤立点检测、真实性核对、范围核对、空值替换等验证方法。如身份证号的验证,可先通过长度函数查看数据表中身份证号的长度,然后按长度分类统计后排序,掌握各类身份证号长度的分布情况,对非15位或18位的数据进行分析核实,若出现很有规律的20位或22位数据,则需要判断是否填了残疾人证或其它字段。长度正确后再通过身份证号的编码规则核验其真实性。最后校验数据的范围。尤其是在数据的汇总中,为了防止数据合并以后,部分数值落在定义域之外,需要对合并前的关键字段检查,掌握值的分布,防止因为单位、格式不一致导致的错误。例如2018年5月7日,可能有“2018/5/7”“07-May-18”“20180507”等表示方法,需要统一格式后再合并,避免错误。

   验证业务规则。数据在整理标准化和分析挖掘的过程中,审计人员会将原始数据中表名、字段名、记录值代码以及表表关联的经济含义明确标识出来,需要进行大量的查询汇总或细分、替换修改、插入数据、更新数据、删除数据等操作,每一步转换工作都有可能影响到数据的完整性和准确性,这需要有非常规范和标准的统计逻辑关系约束,所有指标的计算规则必须保证一致。所以需利用会计恒等式、业务规则、勾稽关系、法律法规约束等规则进行检查。如检查借贷平衡是审计人员常用的一种简单有效的数据质量控制方法,常与核对总金额方法结合使用;还可通过分项数与总和数一致,财政各类资金收支报表数与决算数对比;核实主要变量值域范围是否异常、是否与报表一致等,通过业务规则有效地开展数据质量控制。(审计署驻兰州特派办 裴文华 来源:中国审计报)

地址:安徽省芜湖市高教园文昌西路22号 皖南医学院审计处 | 电话:0553-3932525