Bioinfo

Basics for Bioinformatics

Notes on bioinformatics

Main Directions

Statistical modeling for validating the biological conjecture (e.g. the meachnism from SNP to Phenotype)
Predict biological variables (e.g., enhancer, promoter) that are hard to observe directly
Bological Inference on biological data, e.g., estimate the true methylation state, the true expression level etc.
Find biomarkers for Diease, Cancer, or other Phenotypes

Some Concepts (More):

表观遗传学: 是指基于非基因序列改变所致基因表达水平的变化，例如：DNA甲基化、组蛋白修饰、染色体重塑和非编码RNA调控等等，主要是通过对基因转录或翻译过程的调控，影响其功能和特性。
染色质：是由DNA缠绕着核小体构成。
核小体：核小体是由H3、H4、H2A和H2B四种组蛋白构成的八聚物，每个核小体上大约含有146bp的DNA。染色质分为常染色质和异染色质，在结构上常染色质折叠压缩程度低，处于伸展状态。
开放染色质：DNA复制和基因转录时，DNA的致密高级结构变为松散状态，这部分无核小体包裹的裸露DNA区域被称为开放染色质性。
染色质可进入性：染色质一旦被打开，就允许一些调控蛋白，比如转录因子和辅因子与之相结合，染色质的这种特性叫做染色质的可进入性也叫可及性。
基因富集分析(GSEA)：(1)GO分析: 主要从分子功能(Molecular Function, MF), 细胞组分(Cellular Component, CC)和生物过程(Biological Process, BP)三个角度对基因集合进行分析; (2) KEGG 通路分析: 主要从代谢物调控网络的角度分析；

Application of NGS

全基因组测序与覆盖深度
- Coverage ratio (覆盖比率，亦简称覆盖率，亦称基因组覆盖率): 指被测序到的碱基占全基因组大小的比率。
- Coverage depth (覆盖深度，亦称测序深度，或者碱基平均测序深度):指每个碱基被测序的平均次数。即测序的数据总量比基因组大小: 测序所得的碱基总数(raw data or clean data)/基因组大小
转录组测序 (RNA-seq) includes mRNA, sRNA, microRNA, LncRNA, etc.
蛋白质组学 ASAP-seq, CITE-seq (同时测蛋白质组与转录组)
蛋白质与DNA相互作用 (Chip-seq and CUT&Tag): 测得的数据越大相应的区域可能蛋白质的结合位点
- Chip-seq: 明确特定的蛋白（如转录因子: motif搜索转录因子）是否结合特定基因组区域（如启动子或其它DNA结合位点)
- 它还被用来确定基因组上与组蛋白修饰相关的特定位点（即组蛋白修饰酶类的靶标）
- CUT&Tag: CUT&Tag是蛋白质-DNA互作关系研究的新方法, 比Chip-seq更加精确。
蛋白质与RNA相互作用: RIP-seq 和 CLIP-seq。
染色质可及性 (MNase-seq, DNase-seq, FAIRE-seq and ATAC-seq): 测得的数据越大相应的区域可能转录因子的结合位点
- ATAC-seq: 用于研究某个基因的上下游调控机制, 思路: 从reads peak找motif，从motif确定转录因子，结合chip-seq看转录因子的作用位点 (ATAC-seq从来都不是用来单组学的分析的，经常需要结合RNA-seq、chip-seq等多组学进行分析)。
- MNase-Seq: 鉴定核小体区域
- DNase-Seq: 识别开放染色质区域
- 染色体开放性图谱绘制, 胚胎发育表观遗传修饰, 疾病潜在标志物的预测, 肿瘤发生表观机制研究, 肿瘤分型与微环境研究
甲基化测序数据 (WGBS, RRBS and MeDIP-Seq): 测得的数据是甲基化水平。
- 用于分析CpG Island. DNA甲基化在维持正常的细胞功能、雌性个体的X染色体失活、寄生DNA序列抑制、基因组结构的稳定、遗传印记、胚胎发育、肿瘤和疾病的发生具有重要功能
- WGBS具有单个碱基分辨率，研究的是全基因组甲基化，可以针对小样本但是价格贵。
- RRBS主要关注CpG富集区域的甲基化，在大规模的临床样本的研究中具有广泛的应用前景。
- 主要是高CpG密度、高DNA甲基化水平区域，和RRBS相似，适用于大样本量的甲基化研究。与WGBS和RRBS不同的是，MeDIP-Seq检测的甲基化图谱不能精确到单个碱基位点。
染色体结构测序 (Hi-C): 测得的数据是相互作用矩阵, 表明染色体各个区间段的相互作用强度。
- 研究全基因组范围内整个染色质DNA在空间位置上的关系，获得高分辨率的染色质调控元件相互作用图谱。
- 研究染色体片段之间的相互作用，建立基因组折叠模型
- 应用于基因组组装、单体型图谱构建、辅助宏基因组组装等
- 与RNA-Seq、ChIP-Seq等数据进行联合分析，从基因调控网络和表观遗传网络来阐述生物体性状形成的相关机制。
空间转录组学 (Spatial Transcriptomics)
全基因组关联分析 (GWAS)
- xQTL(sQTLs, caQTLs, mQTLs, hQTLs, fQTLs and eQTL)
- Understand GWAS (Step1, Step2 and Step3)
基因组变异分析 (CNV and SNV)

Regulatory Elements

启动子 Promoter: 与RNA聚合酶结合并能起始mRNA合成的序列。一般选择CDS区上游2k bp, 下游100bp.
- Example: Predicting TFBS for a Given TF on Promoter
如何寻找Enhancer (Data Sets: EnhancerAtlas (人), VISTA Enhancer Browser (人和鼠), HACER(人))
- 使用一些组蛋白的修饰来定义enhancer. 比如H3K4me1是enhancer (poised)的标志, 如果同时出现H3K27ac则认为是活跃的enhancer (activated),如果同时出现H3K27me3则认为是抑制的enhancer (repressed);
- 使用p300来确定active enhancer;
- 使用染色质的开放程度来寻找潜在的enhancer. 因为活跃的enhancer上面需要结合特异性转录因子,所以一般是处于开放的状态,使用faire-seq,DNase-seq,或者现在使用最多的ATAC-seq来找到开放的区域,然后再根据注释到基因的距离来界定promoter和enhancer (更多称为distal regulatory element), 当然这种的方法只能找到正在活跃的enhancer;
- 使用染色质三级结构捕获的技术 (3C, 4C, 5C, Hi-C, capture HiC, ChIA-PET, Hi-ChIP)之类的技术直接获得enhancer-promoter interaction, 当然这种技术难度比较大,花费也多,现在数据很少;
- 近年也有人用enhancer RNA (eRNA)来找enhancer,但是关于其争议比较多, 见到的应用不多;
转录因子 (TF), Review Paper
- 是一类序列特异性DNA结合蛋白，能够结合在靶基因上游的转录因子结合位点序列（Transcription factor binding site, TFBS）上。
- 转录因子在基因组结合位点不固定，允许错配
- TFBS 通常为一段6~12bp的DNA序列，最多不超过20bp, 用Weblogo或位置频率矩阵表示
- Datasets: JASPAR, More
- Example: Predicting TFs from Promoter Squence

Someting about Bioconductor

Bioconductor Homepage
Genomic annotation in Bioconductor: Summay
Get data from GEO using R
- R code: library(GEOquery); gset <- getGEO("GSE84437", GSEMatrix =TRUE);