| 项目咨询 |积分体系 | 加入收藏 | 设为首页 | RSS
您当前的位置:首页 > 市场 > 百科 > 行业研究 > 专家专栏 > 业界精英 > 医疗信息化论文

构建医疗卫生数据仓库

时间:2013-05-15 11:35:32  来源:  作者:
更多

 

袁烨
江苏先联信息系统有限公司,210012,南京市雨花台区郁金香路17号南京(雨花)国际软件外包园
摘 要
本文主要对医疗卫生数据仓库的架构、数据特点、实现方法和应用等方面,进行了广泛而深入的探讨。
关键词    数据仓库
Bulidingthe Data Warehouse of MedicalHealth
Abstract
         The paper is concerned with extensive and in-depth discussion which about architecture, data characteristic, realization method and application of the data warehouse of medical health.
Keywords        Data Warehouse
1    引言
近年来,伴随着医疗数字化和区域卫生数字化的蓬勃发展,各个医疗卫生机构的数据量迅速增长,对数据处理和分析的需求越来越强。将医疗卫生数据统一、集中、建立数据仓库,不仅能用于生成医疗报表,还能够提供数据分析、辅助决策、知识挖掘等,是医疗卫生工作今后发展的方向,对于医疗卫生管理、临床治疗、医疗卫生科研、卫生事业发展等领域都有巨大的推动作用和里程碑式的意义。
2    数据仓库的架构
医疗卫生数据来源于各个业务系统、人工统计和相关行业等,在同一种业务系统里,会出现不同厂商、不同时期的各种版本,数据离散杂乱,数据总量非常大。数据仓库首先通过数据总线,将业务系统和文件的数据按照相关规范交换进数据中心,这个数据规范既参考了国际卫生信息交换标准(HL7),又结合了卫生部颁发的数据集规范,和数据中心对主数据的管理一起,保证了进入数据中心的数据的规范性、完整性和一致性(见图1)。
001.jpg
图1:数据仓库架构图
数据在数据中心规范化、整理后,通过ETL平台的抽取、转换、加载进入数据仓库。数据仓库中的数据不再是业务流程数据,而是对一个个事实的描述,以及对维度的定义。再根据分析或挖掘的不同主题,建立相对应的数据集市,将数据ETL到数据集市中。数据集市中的数据,高度汇总又包含有各个维度,非常适合于多维报表查询、辅助决策及分析挖掘。最后,由统一的门户进行查询访问。
3    医疗数据仓库的特点
医疗卫生的数据不同于一般数据仓库数据,包含如下四个特点:
多样性:从医患交流、医学影像、检测结果中获取的医学数据,表现形式具有多样性,比如:文本形式(如主诉、现/往病史、过敏史、病程、检测报告等)、图表形式(如体温的记录表、心电图、CT等)、影像形式(如X光片、超声心动图等)等。
隐私性:医疗卫生数据不可避免地涉及到患者个人的隐私信息,这些数据将会涉及到法律、伦理道德、社会和心理等因素,有信息安全隐患。
不完整性:大量数据来源于人工记录,导致数据记录的偏差和残缺,许多数据的表达、记录本身也具有不确定性,病例和病案尤为突出。
冗余性:医疗卫生数据是一个庞大的数据资源,每天都会有大量的记录存储到数据库中,其中可能会包含重复的、无关紧要的、甚至是相互矛盾的记录。
4    数据仓库的建立
在明确了医疗卫生数据仓库的架构和数据特点后,我们就着手建立数据仓库,共分为如下四个步骤。
4.1.元数据管理
数据是整个数据仓库的基础,医疗卫生的数据源很复杂,数据项又非常多,手工维护起来非常麻烦,需要有一个平台统一管理,来保证数据的正确性。元数据管理平台,就是用来管理数据的平台,在这个平台上,我们通过综合考虑国际卫生信息交换标准(HL7)、卫生部颁发的数据集规范以及数据上传交换的具体实现,定义了数据中心所有对象的结构和字典的取值范围(见图2)。
002.jpg
图2:元数据管理平台
然后,通过数据总线,我们要将各个业务系统的数据,上传进数据中心。这个上传的步骤不光要定义系统的接口、数据的规范化、代码值的规范化,还需要主数据的统一,比如人的信息,在不同系统中的可能代码不同,但是数据中心里要使用统一的ID
4.2.主题划分
数据仓库是面向主题的,是在高层次上对医疗卫生海量信息进行综合、归类、分析和提取。各个主题所涉及的数据,以及数据之间的联系,进过有效的组织,形成一个个完整的分析领域,即主题域。
我们将医疗卫生信息划分为以下几个主题域:卫生资源主题域、医疗服务主题域、公共卫生主题域、药物管理主题域等(见图3)。
003.jpg
图3:主题划分
主题域需要具有独立性和完备性,独立性是指主题域必须具有独立内涵,有明确的界限;完备性是指,能够在一主题域内找到分析所要求的一切数据,如果涉及到主题之外的数据,那么就应当将这些数据增加到该主题中来,从而完善该主题。
4.3.模型搭建
在需求分析层面,我们划分好了主题域,确定了每个主题域的含义和内容,接下来就要在具体实现层面,建立数据库。建立数据库的第一步是需要搭建数据模型。对于数据仓库来说,数据建模是建立以事实和维度为主的星座模型(见图4)。
004.jpg
图4:星座模型
要注意数据建模需要兼顾具体业务的处理方法和数据库技术的实现,比如在一张表内包含业务时间和数据库操作时间等。
4.4.ETL
数据仓库的骨架搭建好以后,我们要把数据由数据中心,进过加工处理,导入到数据仓库中,这步称之为“ETL”。由于在数据中心,数据已经规范化,代码取值已经符合值域规定,主数据也已经统一,那么在ETL中,清洗数据的工作得以简化。而主要处理的是将分散的数据进行汇总、历史数据进行拼接、医疗卫生业务逻辑运算、数据的不同粒度汇总以及维度的关联等。
同时,我们运用ETL工具,来设计这些ETL步骤及对步骤的调度。调度包括历史数据的初始化和每日或者实时的增量处理。通过ETL工具,可以很好的观测数据处理的情况和日志以及追踪数据处理的问题,提高工作效率、简化代码开发。
医疗卫生数据仓库的成功搭建和良好的日常维护,给数据仓库应用提供了条件和基础。数据仓库应用,可以分为报表展现、数据分析、辅助决策和知识挖掘等方面,结合不同的主题域,形成了医疗卫生数据仓库应用矩阵(见表1)。如果涉及到主题域的子域,可以进一步细化。
 
报表展现
数据分析
辅助决策
知识挖掘
卫生资源
 
 
医疗服务
公共卫生
药物管理
 
 
表1:数据仓库应用矩阵
 
下面对各主题域分别介绍数据仓库应用的情况:
卫生资源指人、财、物三方面的资源,人力资源包括医生、护士、医技人员的执业情况、职称状态、教育和培训等情况的监督管理;财务资源主要是针对医疗卫生机构的资金投入、支出等状况的有关信息的掌握和监控;设备管理包括对医疗卫生设备及物资的使用情况、运行状况、备战状态的监督管理,对床位的数量、医疗机构的使用面积等信息的掌控和了解。
医疗服务主题主要包括实时统计住院和门急诊的情况,分析入出院、在院人数,分析医疗费用构成,掌握和监控医疗运行情况、医疗安全情况、医疗质量情况、医疗保障情况,监管药物和血液的使用情况,建立和完善医学知识库,辅助增强临床路径系统,掌握医疗工作人员工作效率,考核医疗工作人员工作绩效等。
公共卫生主题主要包括居民建档情况统计和监督,居民健康情况统计和预警,各种慢性病的情况统计和预警,健康教育情况的统计和分析,居民营养状况的统计,妇女保健、幼儿保健、计划生育情况的统计和监控,传染病、地方病、艾滋病、结核病、血吸虫与寄生虫病的发病情况、流行情况、治疗情况的统计分析和监督管理,农村生活环境改善的情况统计,健康危险因素监测,卫生行政执法状况的监督和管理,食品卫生、职业卫生、放射卫生等领域被监督单位的基本情况和监督检查的结果、处罚情况等。
药物管理主题主要包括基本药品入库、出库及使用情况等的统计和药物知识库的建立和完善。
 
参考文献
[1]Inmon W H.Building the Data Warehouse[M].Third Edition.北京:机械工业出版社,2003.1-271
[2]张承江.医学数据仓库与数据挖掘.北京:中国中医药出版社,2008
来顶一下
返回首页
返回首页
发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表
栏目更新
栏目热门