基因之间的CRISPR:如何实验增强子和表观基因组学

客人的博客

本文由Qult Data的首席技术官Aneesh Karve客座博客贡献。本文最初发表于被子基因组学的博客经许可在此再版。

被子是一个基因组学的协作数据库。在这篇文章中,被子技术总监Aneesh Karve展示了如何设计在基因组任何位置都能工作的实验。Aneesh的研究兴趣包括蛋白质组学、机器学习和大生物可视化。

基因组的GPS

我们可以把人类基因组想象成一张有三个坐标的地图:染色体、开始和停止。例如(chr3 1 10)表示第三条染色体最开始的一段DNA,长度为10个碱基对。一个新兴的测序技术家族的功能类似于“基因组的GPS”,可以计算蛋白质、RNA和DNA等遗传元素的坐标(表1)。与GPS在现实世界中一样,坐标本身并不是很有用。我们需要像谷歌Maps这样的东西来帮助我们识别和形象化地址。这就是增强剂基因组数学进来。它们帮助我们将原始的基因组坐标转化为有意义的实验。

表1:一个新兴的“基因组GPS”技术家族

技术 它的定位
芯片SEQ. 蛋白质(我们后面的例子是组蛋白)
chirp-seq. 核糖核酸
高c DNA (genome-to-genome交互)
dnase-seq. DNA(可结合的区域)

谷歌Maps:增强子和基因组数学

假设您希望使用谷歌地图来查找您住所附近的所有咖啡店(不包括星巴克)。从一个书呆子的角度来看,你可以这样表示你的搜索:

(my_house + coffee) -星巴克

看到符号是如何工作的了吗?的+运算符表示交点与- - - - - -运算符表示集差。这就是基因组数学如何帮助我们在基因组中找到有趣的地址的直觉。现在让我们来研究一下如何定位DNA的强大链增强剂在基因组数学的帮助下。

基因组的数学

E舞者是DNA中显示“远距离恐怖作用”的区域。通过DNA压缩的奇迹,一个增强子可以增加一个基因的表达,这是数百万碱基对之外。(有关DNA压缩和结构蛋白的详细信息这使它成为可能,见附录DNA是3D分形)。

增强剂生物学是一个复杂和动态的领域。我们将专注于通过隔离与所谓的改性蛋白质结合的基因组区域来寻找增强剂的验证和真实的方法组蛋白。我们可以通过“蛋白质GPS定位”来检测修饰过的组蛋白,芯片SEQ.从表1。由于DNA的三维几何结构和修饰组蛋白的化学特性,一个具有单甲基化和乙酰化组蛋白,但没有三甲基化组蛋白的基因组区域,具有增强子的功能。因此,我们可以这样表示增强子:

(单甲基化+乙酰化)-三甲基化

在下一节中,我们将把上面的公式应用到现实世界的实验中。我们将从ChIP-seq数据项目编码,在胚胎干细胞中找到增强子,并以一个目标结束CRISPR屏幕这会破坏这些增强子。

一个真实的实验

假设你进行了一个ChIP-seq实验(设想为“蛋白质的GPS”)NANOG,是胚胎干细胞(ESCs)中必需的转录因子。你的ChIP-seq发现超过13000个显著的绑定峰值NANOG在人类基因组中。但并非所有这些13,000个区域对于维护ESC非常重要。所以w在这13000个地区中,哪一个至关重要?一个假设:增强剂!这使我们能够设计一个设计实验的三步方法,以确定批判性NANOG绑定站点:

1.找到增强剂,NANOG结合位点

2.设计一个CRISPR屏幕来锁定和干扰NANOG增强剂

3.CRISPR从步骤2中取出增强子。看看哪个ESCs死亡或分化

第3步揭示了哪个NANOG相关基因对干细胞存活至关重要。了解哪些基因影响我们的细胞培养的生存是现代药物发现和治疗的基础。在下一节中,我们将更多地介绍CRISPR的临床应用。

为了表示NANOG从基因组数学的第一步开始的增强子,我们需要一些表观基因组学领域的简写:

  • H3- - - - - -之一NANOG是组蛋白相关蛋白
  • K4和K27 -H3中氨基酸赖氨酸的位置
  • Me1, me3和ac- - - - - -分别表示单甲基化、三甲基化和乙酰化(这些是化学修饰,或官能团,发现在赖氨酸)

把所有这些放在一起,我们得到了步骤1的表达式:

(H3K4me1 + H3K27ac) - H3K4me3

以下视频演示了如何任何人都可以找到增强与被子。

利用CRISPR寻找并破坏增强子

用基因组数学表达式武装NANOG增强子,我们准备好进行第二步:设计aCRISPR屏幕来破坏这些增强子。第三步和最后一步是进行我们的CRISPR屏幕。我们首先感染数百万胚胎干细胞(ESC)慢病毒载体是一种减毒逆转录病毒,与艾滋病毒同属一个家族。通过设计,我们Lentivirii是由基因控制的为了CrispRum,我们在步骤2中鉴定的增强剂。结果是一种异源性干细胞群,通常容纳在单一烧瓶中。通过一点随机魔术和泊松统计,平均而言,每个子人口都有一个明显的增强剂。随着我们的ESC模糊和随着时间的推移而区分,我们定期使用下一代测序来测量引导RNA(GRNA)对整个人群的相对比例。回顾指导rna是CRISPR的靶向机制。因此,如果gRNA随着时间的推移下降或消失,我们推断它针对的增强子是我们干细胞的“功能支柱”。移除这个支柱和ESC模具。

从Addgene订购慢病毒

如果您有兴趣为增强剂设计自己的CRISPR屏幕,请查看附录。

结论:揭示了暗物质

精确地了解基因组的哪一部分是干细胞、转移肿瘤细胞、阿尔茨海默病神经元或[你感兴趣的细胞系]的支柱,是精确医学的基础。我们可以应用这一知识创造靶向疾病治疗,对健康细胞的副作用最小,对不健康细胞的影响最大。

直到最近,人类基因组充满了暗物质:增强子、lncRNAs、重复元件、阻遏子、绝缘体等等。我们知道这个问题是存在的,但是研究其功能的传统方法是非常困难的。CRISPR结合表1中的技术,为我们提供了强大的类似gps的技术来探索基因组中的暗物质。还有无数未知区域有待探索。我希望这篇简短的指南能帮助你做到这一点。

祝你好运,总是继续

附录

dna酶超敏位点和基因间crispr

你真正产生了DHS数据设置从国安局的所有网站开始125个来自编码项目的不同人体细胞类型。DHS位点是基因组中最具包容性的调控区域标记,包括增强子、启动子、绝缘体等。然后,我鉴定了200多万个DHS位点中没有脱靶效应的有效gRNA序列。见下文为进一步的细节。

DNA是一种三维分形

DNA压实

人们通常认为DNA是a、T、G和C核苷酸排列成双螺旋的线性聚合物。人是错误的。实际上,细胞DNA是一个复杂的三维染色质球状体。染色质是卷曲的DNA和被称为组蛋白的结构蛋白的组合。染色质折叠成二级结构(环)和三级结构(球),以达到精细的紧实-大约每克700兆兆字节并形成我们所熟知和喜爱的x形染色体。

为了理解压实,假设你有一根10米长的绳子。你把绳子拧成一个紧的球。弦的两端,不是10米的距离,只是毫米的距离。类似地,细胞以一种将线性距离较远的区域拉近的方式压缩DNA。

gRNA选择和过滤脱靶效果

我们首先生成一个多fasta文件的hg19基因组使用Bedtools getFasta。对这些区域及其反向补体进行spCas9 PAM位点(NGG)分析,然后根据两个主要标准进行筛选:不允许TTTTT(这是聚合酶终止子),对已鉴定的23 mer gRNA不存在脱靶效应。用Bowtie2中首先描述的参数卡恩斯等。:

bowtie2 -f -x HG19_GENOME -local -f -k 10 -very sensity -local -L 9 -N 1 -U GRNA_23MERS -S GRNA_HITS.sam


非常感谢我们的客座博主,Aneesh Karve!

Aneesh KarveAneesh Karve是CTO被子数据。被子是一个协作数据库。Aneesh的研究兴趣包括机器学习、蛋白质组学和数学用户界面。

额外的资源

Addgene博客上的资源伟德体育中心

在Addgene.org上的资源

主题:CRISPR,其他CRISPR工具

留下你的评论

分享科学变得更容易了……订阅我们的博客

订阅