在癌症研究领域中,研究人员已经开始意识到数据分享的重要性,尤其是临床试验的相关信息、伴随临床试验的相关分子、基因层面的信息,NCI Genomic Data Commons便是为了解决这个问题而产生的工具,主要是由芝加哥大学、Ontario Institute for Cancer Research、Leidos Biomedical Research,在NCI补助下,所建置的共享癌症研究数据的云端服务癌症基因组学数据共享中心 (GDC) ,他们收录了所有在NCI补助下的项目数据,包含TCGA和TARGET program。里面统整了raw sequencing数据、copy-number alterations, gene-expression changes。
癌症基因组学数据共享中心 (GDC) 的使命是为癌症研究界提供一个统一的存储库和癌症知识库,该库可以支持跨癌症基因组研究的数据共享,从而支持精准医疗。
美国国立癌症研究所癌症基因组学中心 (CCG) 成立的宗旨是引领美国国立癌症研究所努力生成关键数据集,以编目人类肿瘤中观察到的改变,协调数据统一和共享工作,并支持开发旨在改善理解大规模、多维数据的分析工具和计算方法。CCG 支持多项大型癌症基因组研究计划,包括癌症基因组图谱 (TCGA) 和癌症基因组学办公室 (OCG)。OCG 包括两个支持癌症分子特征化的计划,分别是转化性研究生成有效治疗方法 (TARGET) 计划和癌症基因组特征化计划 (CGCI)。
TCGA、TARGET、CGCI 和其他 CCG 计划已经提供了对几种人类癌症基因组变化的综合特征描述;然而,这些特征描述保存在不同的存储库中,格式多样,并且具有不同的数据管理基础设施。为了统一这些工作,美国国立癌症研究所建立了 GDC,为癌症研究界提供数据服务,支持接收、质量控制、集成、存储和重新分发来自各种历史和正在进行的美国国立癌症研究所项目的标准化癌症基因组数据集。
GDC 由几个组织开发,并得到了社区生物信息学领导者的宝贵贡献,这些领导者被称为“GDC 团队”。有关 GDC 和其他 CCG 支持计划的更多信息,请访问 CCG 计划网站。
癌症基因组学数据共享中心 (GDC) 提供了各种工具和资源,帮助用户检索、下载、分析数据,提交数据以及处理数据。这里总结了其中的一些主要功能:
查看这个链接可以找到这些工具https://gdc.cancer.gov/gdc-resources
- GDC 数据门户网站 (GDC Data Portal): 该网站是一个强大的在线平台,允许用户搜索、分析和下载来自癌症基因组研究的数据。用户可以使用“队列构建器 (Cohort Builder)” 根据丰富的临床、生物标本和可用数据元素进行筛选,创建自定义队列以供在“分析中心 (Analysis Center)” 中进行分析。“分析中心” 提供交互式分析工具,支持基因变异水平分析和临床检查。数据可以在“数据仓库 (Repository)” 中下载。
- GDC 数据传输工具 (GDC Data Transfer Tool, DTT): 该工具是一个命令行驱动的应用程序,用于下载和上传大量数据。它提供了一种优化的方法在 GDC 和用户之间传输数据,并支持恢复中断的传输。
- GDC 应用编程接口 (API): 该接口允许用户以编程的方式搜索、下载、提交和分析 GDC 数据和元数据。它使用 JSON 格式进行通信,并遵循标准的 HTTP 方法 (GET, PUT, POST 和 DELETE)。
- GDC 数据字典和数据模型 (GDC Data Dictionary and Data Model): 该资源描述了可以与 GDC 生成 的基因组数据并行使用的临床、生物标本、管理和基因组元数据。它定义了 GDC 基于图的数据模型的结构以及数据需要遵循的规则。此外,它还包含有关数据模型中实体之间关系的信息。
- GDC 数据提交门户 (GDC Data Submission Portal): 该门户是一个用于提交与已在 dbGaP 注册并被接受提交到 GDC 的项目相关的临床、生物标本和分子数据的网络工具。提交的数据会使用内置的 GDC 审查/质量控制工具进行验证。
- GDC 生物信息学管道 (GDC Bioinformatics Pipelines): 这些管道是标准的工作流程,支持 DNA、RNA 和 miRNA 序列比对到公共参考基因组 (GRCh38) 以及这些和其他数据类型的更高层次数据生成。
- GDC 出版物搜索 (GDC Publication Search): 该搜索功能允许用户查找与美国国立癌症研究所支持的项目相关的出版物信息和补充文件。用户可以按项目、出版物年份和关键字过滤出版物。