1)SDTM
研究数据列表模型是以标准格式展现研究数据。
SDTM最基本的概念是观测(observation),一条观测对应数据集中的一行。由特定主题的一组观测组成域(domain)。
比如,一条观测“受试者101在研究的第6天开始出现轻度恶心症状”,转换成AE域(不良事件,adverse event)的一条观测。
USUBJID | AETERM
| AESEV
| AESTDY
|
---|
101
| 恶心
| 轻度
| 6 |
这条观测中有4个变量:
标识符(identifier)变量,USUBJID,受试者唯一标识符。
主题(topic)变量,AETERM,不良事件报告词,指明该观测的主要目的。
修饰语(qualifier)变量,AESEV,严重程度,用来进一步描述结果的说明性文字或数值,或观测的更多特征。
时间(timing)变量,AESTDY不良事件开始的研究日,描述观测发生的时间。
还有一类规则(rule)变量,只存在于试验设计模型里。
同一主题并且逻辑上相关的观测结果的集合组成域。受试者的观测结果会在一系列不同的域中采集。
SDTM按照用途将域归类为:试验设计(trial design)、特殊用途(special purpose)、干预类(interventions)、事件类(events)、发现类(findings)。
干预类:获取受试者接受的研究性治疗或其他(伴有实际或期望生理效果),可以是由研究方案规定的治疗(例如暴露)、研究期间的伴随治疗(例如用药),或受试者自我服用的其他物质(如酒精、烟草或咖啡因)。
常用域有CM(既往和同期用药)、EX(暴露)等。
事件类:获取研究方案计划的重要事件如随机化、研究完成情况及试验期间或之前发生的独立于临床研究计划评估状况事件等(前者如不良事件,后者如疾病史)。
常用域有AE(不良事件)、DS(实施情况)、MH(既往病史)等。
发现类:获取临床研究计划评估的观测结果如特定实验室检查、ECG检查或问卷中问题的回答结果等。
常用域有EG(心电图)、LB(实验室检查)、QS(问卷调查)、VS(生命体征)等。
特殊用途:定义受试者水平的数据,与上面三类的域有所区别。
常用域有DM(人口统计学)、CO(注释)、SE(受试者元素)、SV(受试者访视)等。
试验设计:定义了一个标准结构来表示计划的事件序列和治疗方案。它提供了一个标准方法,以定义受试者将要经历的治疗分组、计划访视和评估。
常用域有TS(试验总结)、TA(试验组别)、TE(试验元素)、TV(试验访视)和TI(试验入选和排除)等。
在SDTM模型中,每一类都有规定其可以使用的变量列表。在SDTM IG(实施指南)中,预设了一些常用的域,每个域都有规定其推荐的变量列表,在列表中规定了每个变量的标签、变量类型、如何使用等情况。
哪些变量必须使用,不能为空;
哪些变量期望使用,但是如果没有采集的话,可以空着;
哪些变量是可选变量,如果没有采集的话可以不用。
如果在IG中的域还不够用的话,申办方可以按照SDTM的规则自定义新的域来满足研究的需求。
在SDTM模型递交时,最少需要DM、EX和DS。
2)符合SDTM的注释病例报告表(SDTM aCRF)
符合SDTM的aCRF,在PDF格式的CRF上,以SDTM的变量名进行标注,方便评审员快速查找对应的数据在CRF上的位置,方便其理解临床试验的数据。
这个PDF文件名称必须命名为“acrf.pdf”。
aCRF需要参见CDISC发布的元数据递交指南。其中规定,标注的内容需要在PDF文件中搜索,手写后扫描的版本因为无法搜索而不可用。
在PDF文件还应该对域建立书签索引,制作按照访视(VISIT)和按照域两种方式的书签。
CRF上采集但最终没有在SDTM中递交的变量,需标注“不递交”(“NOT SUBMITTED”)。
CRF中唯一页面需要详细标注,详细到每个CRF上采集的条目。重复的页面,可以标注“见前第xx页标注”(“SEE ANNOTATION ON PAGE xx”)。
域名标注和变量标注可以通过不同字体大小加以区别;同一个页面上的域可以以不同颜色加以区别。
3)数据映射
数据映射(data mapping),是将原始数据映射至SDTM数据集,或者将SDTM数据集映射至ADaM分析数据集。
在原始数据映射至SDTM数据集时,一般原始数据因为数据库的限制,有一些变量是横向(horizontal)的,在映射时需要转置成纵向(vertical)标准结构,这个过程我们叫规范化(normalize)。
做数据映射时,需要设计一个映射说明文件(mapping specification),通常是Excel文件格式。SAS编程人员根据该映射说明文件,通过SAS编程,实现数据的最终映射,转换到SDTM或者ADaM。