医学公共数据库对生信分析具有不可估量的意义,它不仅提供了海量且多样化的数据资源,涵盖了丰富的样本数据以及包括基因表达、蛋白质相互作用、代谢组学和表观遗传学等在内的多种数据类型,为生信分析奠定了坚实的数据基础并助力从多角度深入探究生物学问题。
而且在疾病研究与诊断方面发挥着关键作用,既能通过分析数据揭示疾病的发生发展机制,识别相关驱动基因和信号通路,又能构建疾病诊断和预后评估模型,发现生物标志物以提高早期诊断率;还能大力推动药物研发与个性化治疗,一方面挖掘潜在药物靶点为新药研发指明方向,另一方面依据个体遗传差异实现个性化用药指导以提高疗效。
此外,也极大地促进了基础医学研究,能为基因功能研究提供线索,帮助推测基因在疾病中的作用,同时可构建生物学网络以系统理解生物体内复杂的相互作用关系和生命现象。
今天为大家介绍几个医学领域常用的公共数据库及它们的数据资源获取方式。主要为:NCDB、SEER、TCGA、MIMIC
1、NCDB
美国国家癌症数据库(National CancerDatabase,NCDB)是一个非常著名的临床数据库,经国家认证,由美国外科医师学会和美国癌症学会联合组建的。它是一个基于医院登记数据的临床肿瘤学数据库,来源于超过1500多个癌症委员会认证的机构。
访问网址:https://www.facs.org/quality-programs/cancer-programs/national-cancer-database/
目前该数据库还仅限于对注册的癌症委员会用户开放,需要通过QPort登录访问。这通常包括学术研究人员、公共卫生专家和医疗机构。访问权限可能需要提交研究目的和计划,以确保数据的使用符合伦理规范。
访问NCDB的数据通常需要通过申请程序,并需要满足一定的资格条件。学术研究人员、医疗机构和政府机构通常可以申请访问权限,但需提交详细的研究计划和伦理审查结果。数据访问可能有不同级别,从汇总数据到个体级别数据,具体权限视研究目的和数据敏感性而定。
2、SEER
SEER(Surveillance,Epidemiology,and EndResults Program)是美国癌症统计的权威来源。SEER数据库可提供癌症统计信息,以减轻美国人口中的癌症负担。SEER数据库由美国国家癌症研究所,癌症控制和人口科学部的监测研究项目提供支持。
访问网址:https://seer.cancer.gov/data/
注册后邮箱会收到SEER Stat 软件下载链接。
软件界面如下,每一行都是一个数据集,约60多个数据集。需对数据进行筛选,比如肿瘤类型、年龄范围、性别、种族等等,方可进行数据导出。类似IPA,获取全量数据集有难度。
SEER数据集收录病例条目数。
下图为下载其中一个数据集的所有可筛选内容,文件大小约234Mb,速度很慢。
3、TCGA
基因组研究所合作开发的,目前它包含了33种癌症的数据,每种癌症都涉及关键基因组变化的全面、多维的图谱。TCGA数据库储存有2.5PB的数据,对超过1.1万多名患者的肿瘤组织及配对正常组织进行描述,目前已被广泛应用于研究领域。这些数据已为独立研究人员进行的癌症研究或者TCGA研究网络出版物做出了超过1千多项的贡献。
访问网址:https://portal.gdc.cancer.gov/
可直接下载数据集,最新版本数据共8.96 PB。
TCGA存储的数据可分为三个级别:
Level 1 : 原始的测序数据(fasta,fastq等);
Level 2 : 比对好的bam文件;
Level 3 : 经过处理及标准化的数据。
Level 1 和Level 2 数据为限制下载,Level 3 有部分是限制下载,其余是开放下载,若你想下载的数据level显示非法的/未经授权的,则表示不能直接下载,需要先向TCGA申请使用权限。限制下载的数据可以通过申请dbgap账号获得下载权限,但是申请这个账号需要NIH/NCI资格审核,一般只有国外PI才可能申请通过。公开的数据基本能满足临床医生的研究需求,因此无需特意去注册账号。
约三分之一的数据为公开免费下载。
数据总量如下:
访问权限获取:
需要首先获得NIH eRA Commons account,然后通过NIH database of Genotypes and Phenotypes (dbGaP)的数据库获得访问数据的授权。
eRA Commons(需组织机构申请)和dbGaP注册难度很大。
4、MIMIC
包括MIMIC- II,MIMIC-III,MIMIC-VI,eICU,PIC(J儿科),HIRID数据库。其中使用较多的是MIMIC-III数据库。该数据库可以免费申请使用,内有贝斯以色列女执事医疗中心在2001年和2012年之间重症监护室超过四万病人的相关数据。数据库包含信息如人口统计学特征、床边生命体征的测量,实验室测试结果,各种操作、药物、影像报告和死亡指标。
访问网址:https://mimic.mit.edu/
MIMIC数据除了本地以外,还在云端存储,下载之前需要提交申请,且完成保护人类研究参与者的公认课程,审核周期约1周,审核通过以后会收到电子邮件以及数据库的下载说明。
其数据是一个由26个表组成的关系数据库,表由通常带有后缀“ID”的标识符链接,数据是以作为逗号分隔值(CSV)文件的集合提供,同时提供脚本,帮助将数据导入数据库系统,包括PostreSQL、MySQL和MonetDB。
参加课程需提供edu邮箱注册登录。
这四个宝藏网站覆盖了多个研究领域,相信对于生信分析人员和医学研究者而言,掌握这些资源不仅能提升效率,还能挖掘出更有价值的科学发现。建议收藏本文,随时查阅,让数据成为你科研路上的 “秘密武器”!
【免责声明】发布内容来源于互联网、业内人士投稿以及微信公众号等公开资源,我们对文中观点持中立态度,文中观点不代表本平台的立场。所有文章仅供读者参考和交流使用。转载的文章版权归原作者所有,如有侵权行为,请及时与我们联系以便删除。