启明办公

 找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 110|回复: 8

小白实战课堂开课啦!手把手教你转录因子与靶基因预测操作 ...

[复制链接]

1

主题

5

帖子

3

积分

新手上路

Rank: 1

积分
3
发表于 2022-11-30 14:57:44 | 显示全部楼层 |阅读模式
嗨,小伙伴们大家好!很多小伙伴在设计转录因子相关课题的时候经常会遇到这样一个问题,在已知靶基因的情况下怎么寻找它上游的转录因子?或者是已知转录因子怎么找到它可能参与调控的靶基因?本周给大家梳理的知识点和介绍的JASPAR数据库便是用来解决这两个问题的,那我们一起来看看吧~!
一、写在前面:认识转录因子及其结合位点
1、认识转录因子
1.1、概念
转录因子(Transcription factor, TF):是一类序列特异性DNA结合蛋白,能够结合在靶基因上游的转录因子结合位点序列(Transcription factor binding site, TFBS),参与调控基因转录过程。
1.2、特征
1)结构特征:至少含有一个DNA结合结构域(DNA binding domain, DBD),用以识别和结合靶基因上游TFBS序列;含有多个转录效应结构,用以结合其他转录调节因子形成转录调控复合物。
2)功能特征:往往形成一个“基因启动子区域+TF+RNA聚合酶+其他辅助转录调控因子”形式的转录起始复合物,参与调控下游基因转录过程。
1.3、分类
两种分类原则
1)根据转录因子对转录调控的特性分为通用型转录因子和特异型转录因子。
2)根据转录因子DBD分为四大类:
①Basic domains,以同源或异源二聚体形式发挥作用,代表分子为basic leucine zipper domain(bZIP)和basic helix-loop-helix domain(bHLH);
②Zinc-coordinating DBD,含有锌指结构的C2H2、C4或C6蛋白,参与基因转录调控;
③Helix-turn-helix,含有两个α-螺旋,分别用以识别DNA序列和维持蛋白与DNA结合的稳定性;
④beta-scaffold factors with minor groove contacts,代表分子为Rel homology region(RHR)。
2、转录因子结合位点
2.1、基本概念
转录因子结合位点(Transcription factor binding site, TFBS)是转录因子结合在靶基因DNA上的区域。
2.2、特征
1)转录因子结合位点序列具有保守性,通常为一段6~12bp的DNA序列,最多不超过20bp;
2)某些转录因子结合位点冗余
3)转录因子在基因组结合位点不固定,允许错配,理论上转录因子可以结合在DNA任意区域,但是通常只有结合在启动子区域的转录因子才能发挥生物学意义。
2.3、表述方式
1)一致性序列:将能与同一个转录因子结合的所有DNA片段按照对应位置进行排列,选择每个位置最可能出现的碱基组成该转录因子结合位点的一致性序列,序列包括A,T,C,G这4中碱基和IUPAC兼并码,后者代表某个位置上可能出现的碱基组合。
2)序列标识图:依次绘出某个DNA motif中各个位置可能出现的碱基字母,碱基字母高度反映该位置的碱基保守性,字母越少高度越高的位置碱基保守性越好,碱基字母的大小与碱基在该位置上出现的频率成正比例关系。
3)位置频率矩阵:矩阵中,行代表转录因子结合位点区域每个碱基位置信息,列代表每个位置四种碱基出现的概率,可以矩阵或表格形式展示。


3、在线网站预测转录因子结合位点的缺陷与策略
目前转录因子结合位点的预测主要是基于热力学亲和力,并非真实发生在细胞内的结合,在转录因子结合位点预测时允许碱基错配,因此可能存在大量的假阳性预测结果。另外,转录因子发挥作用时,需要分子伴侣与或组成转录因子复合物发挥转录调控作用,组蛋白表观遗传学修饰引起的染色体结构改变也会影响转录因子的结合,在使用网站预测时没有考虑到这点。综上,我们在做转录因子预测研究时,可以考虑多个数据库的多种算法,将获得的结果取交集,并参考转录因子和靶基因的表达相关性,同时选择一个转录因子复合物内的多个转录因子进行研究,以通量解决概率问题。

二、JASPAR数据库概览
进入JASPAR主页(http://jaspar.genereg.net/),点击左侧栏About可查看JASPAR基本信息,该数据库为收录转录因子和DNA结合位点信息的开源公共数据库,目前更新到2020年第8版,共有10个子数据集,点击任意一个子数据集,下拉菜单可以看到其简介,右侧显示该子数据集在不同物种中的分布情况,包括脊椎动物、植物、真菌、昆虫和线虫等。




点击左侧栏10个子数据库各自对应的Browse,可进入该模块下各种motif信息的目录界面,分别介绍如下。


JASPAR CORE子数据库,是JASPAR的核心数据库,也是使用最多的一个数据库,收录来自文献的实验证实的真核生物转录因子结合位点序列信息,是一个经过人工校对过的非冗余数据库,数据质量较高,主要用于特定转录因子或具有特定结构特征的某一类转录因子的结合位点预测。该模块每个motif编号以MA开头。


Collection CNE子数据库,包含233个人类基因组中高度保守的非编码基因转录因子结合位点序列信息,大部分可以作为增强子来调控发育和分化相关基因表达,主要用于分析潜在的增强子。该模块每个motif编号以CN开头。


Collection FAM子数据库,是基于JASPAR CORE数据,根据结合位点序列特征将转录因子划分为11个不同的class家族,便于同一位点的多方预测,同时还能发现新的家族模型或将新发现的转录因子进行功能聚类。该模块每个class编号以MF开头。


Collection PBM子数据库,包含基于k-mer微阵列技术获得的104种小鼠转录因子矩阵模式数据。该模块每个motif编号以PB开头。


Collection PBM HLH子数据库,包含基于k-mer微阵列技术获得的19种线虫Helix-turn-helix转录因子模型数据。该模块下的motif编号以PL开头。


Collection PBM HOMEO子数据库,包含基于k-mer微阵列技术获得的176种鼠同源结构转录因子矩阵模式数据。该模块每个motif编号以PH开头。


Collection PHYLOFACTS子数据库,包含174种进化上保守的基因上游结合元件,基于实验验证和尚未定义的转录因子结合位点信息,与JASPAR CORE数据互补,主要用于分析启动子的组织特异性和结构特异性。该部分每个motif的编号以PF开头。


Collection POLII子数据库,包含已知的与RNA聚合酶II核心启动子相关的DNA基序,用于分析潜在的核心启动子。该部分每个motfi编号以PL开头。


Collection SPLICE子数据库,包含6种典型的或非典型的剪切位点序列模型,主要用于剪切位点和可变剪切相关研究。6个motif编号均以SA开头。


Collection UNVALIDATED子数据库,2020年新增板块,包含一些未被验证的现有文献未见报道的转录因子结合位点信息,官方不建议使用。该部分每个motfi编号以UN开头。


点击About目录下Documentation子目录,可以查看每个子数据集包含的具体数据条目,以JASPAR CORE为例,该条目下包含每个Motif的ID编号,转录因子类型和家族信息,种属,文献PMID号等信息。


三、JASPAR功能及操作演示
1、转录因子TFBS信息查询
以JASPAR数据库示例转录因子SPI1为例,进入JASPAR主页,检索框输入SPI1,高级设置选项分别选择感兴趣的子数据库(Collection)、物种(Taxon)、种属(Species)、数据类型(Date type)、转录因子类型(Class)、转录因子家族(Family)和JASPAR版本。


点击Search进入检索结果页面,转录因子SPI1共得到5个版本结果,点击最新版ID进入详情界面。


Profile summary提供该转录因子Matrix ID,转录因子名称、类型和家族信息,所属的子数据集,种属,文献PMID号,以及对应的各种数据库ID号,如Uniprot ID、PAZAR ID和TFBSshape ID等。该页面还提供序列标识图和位置频率矩阵,均提供下载功能。另外,可点击外链直接进入PDB、Uniprot和Remap数据库。


点击Binding sites information下HTML file查看结合位点序列,红色标识即就是motif对应的具体的序列信息。


页面下拉,点击ChIP-seq centrality,展示ChIP-seq数据的Motif富集结果,P值小于0.05,即logP<-1.3表示转录因子与Motif结合具有统计学意义。可视化图形中,横坐标为peak相对位置,纵坐标是motif出现次数,峰尖位于0附近,峰形尖锐表明得到的peak确实是转录因子结合的DNA motif位置。


First order TFFM与Detailed TFFM二者类似,只是算法不同,点击任意一个查看TFFM核酸关联性分析示意图,该图形表示motif中上一个位置出现某种碱基对下一个位置出现某个碱基概率的影响。


2、靶基因候选转录因子预测
第一步
获取靶基因潜在启动子区域碱基序列
【使用NCBI或UCSC数据库,以NCBI为例说明】
以人类RET基因为例,进入NCBI数据库,选择Gene子数据库,输入基因名称RET,点击Search得到检索结果,第一条结果即为目标基因,点击进入详情页面。




页面下拉,在Genomic context目录下找到该基因的基因组位置信息,可知RET基因位于Chr10:43077069-43130351。普遍认为基因转录起始位点上游1000~2000bp区域为该基因启动子区域,下方图谱中红色箭头向右表示该基因位于正义链,转录方向为从左到右,即RET基因潜在启动子区域为Chr10:43075069-43077069。


页面继续下拉,在Genomic regions, transcripts, and products目录下,选择前文一致的的基因组版本,找到FSAT点击进入,右侧输入RET基因启动子区域位置信息,点击Update View,即可得到该基因潜在启动子序列。




第二步
预测潜在的结合在靶基因启动子区域的转录因子
【联合UCSC和JASPAR数据库】
点击http://genome.ucsc.edu/进入UCSC数据库主页,My Data下拉菜单选Track Hubs点击进入后,Public Hubs搜索栏输入JASPAR,点击Search Public Hubs,检索结果处找到Connect点击,页面刷新提示JASPAR track加载成功。




返回UCSC主页,Genomes下拉菜单选择前文一致的基因组版本,页面刷新显示基因组信息浏览页面。点击hide all隐藏所以track,然后在最新版JASPAR下拉菜单中选择pack,再点击最右上角refresh,设置为仅保留JASPAR track的信息界面。




检索框输入RET基因潜在启动子区域位置Chr10:43075069-43077069,点击GO得到结合在RET基因启动子区域潜在的转录因子。转录因子后面的箭头朝向表示转录方向,优先选择与靶基因转录方向一致的转录因子;转录因子后面箭头颜色表示预测评分,颜色越深评分越高,对应的预测结果越可靠。




可设置JASPAR track参数过滤预测结果,点击JASPAR进入设置界面,Minimum Score一般在200以上即可视为有统计学意义,由于预测到的转录因子较多,此处设置500,点击Submit,页面刷新可见预测到的转录因子明显减少。




第三步
预测候选转录因子在靶基因启动子区域的结合位点序列
【使用JASPAR数据库】
以预测到的箭头颜色较深的NFIC、PAX9、ZNF382、SP4和EGR1这5个转录因子为例。进入JASPAR主页,检索框输入NFIC,设置同前文所述,检索结果选择最新版本,前面打勾,点击右侧Add to cart。同法将其余转录因子加入购物车,然后点击View cart。


右侧工具栏Scan,找到前文NCBI数据库查询到的RET基因潜在启动子区域序列FASTA格式,全部复制后粘贴入检索框,阈值默认80%,当预测结果较多时可提高阈值,此处设置85%,点击Scan,页面刷新,结果显示预测到的结合位点序列。


结果显示5个转录因子满足预测条件的有3个,其中EGR1预测到两个结合位点序列,表格提供的信息有:预测评分,评分越高预测结果越可靠;TFBS序列起止位置;具体的碱基序列。点击Copy或CSV可保存预测结果。


四、文献单图复现
文献案例:PMID: 32899428,IF=4.556分


本文Table1作者在JASPAR数据库中预测转录因子YY1在靶基因BIRC5启动子区域的可能结合位点序列,而后通过ChIP-seq实验证实预测结果。


单图复现如下:
进入NCBI数据库,同前文示例方法找到靶基因BIRC5的潜在启动子序列位置,即Chr17:78212253-78214253,大致步骤如下图所示。




本文作者有说明使用的序列为Chr17:78212186-78226236,在整个基因序列上预测靶基因,可得到更多预测结果。进入JASPAR数据库,Search检索转录因子YY1,将最新版结果添加购物车,点击View cart页面刷新,右侧Scan工具栏输入靶基因BIRC5的Chr17:78212186-78226236序列,阈值设置为80%,点击Scan得到检索结果,整理可得到原文表格。






投我以桃,报之以李,开发并维护数据库不易,小伙伴们使用JASPAR时,别忘记引用以下参考文献哦!~


我有双份的快乐,一份留给我的family members,一份留给不经意间看到的你!好啦~关于JASPAR数据库加餐就到这里啦!

作者:弘毅
本文首发于“ 解螺旋”微信公众号
转载请注明:解螺旋·临床医生科研成长平台
回复

使用道具 举报

1

主题

10

帖子

15

积分

新手上路

Rank: 1

积分
15
发表于 2022-11-30 14:57:51 | 显示全部楼层
所有的转录因子的motif都有方向吗?我在找ACGTG这样的motif是出现了好多CACGT,这样的结果需要用基因的方向限定吗?谢谢
回复

使用道具 举报

0

主题

7

帖子

8

积分

新手上路

Rank: 1

积分
8
发表于 2022-11-30 14:58:36 | 显示全部楼层
为什么我在UCSC中选择的物种是鸡,然后出来的却没有JASPAR TFBS呢,选择物种是人就有这一栏
回复

使用道具 举报

0

主题

4

帖子

0

积分

新手上路

Rank: 1

积分
0
发表于 2022-11-30 14:58:56 | 显示全部楼层
案例里面的Ucsc链接的jaspar2020好像是预测所有脊柱动物的tfbs,能设置只预测属于人的tf吗?
回复

使用道具 举报

1

主题

9

帖子

3

积分

新手上路

Rank: 1

积分
3
发表于 2022-11-30 14:59:37 | 显示全部楼层
我也是,选择水稻后,没有JASPAR TFBS那一栏,选人的话会有。请问你最后解决了吗
回复

使用道具 举报

0

主题

7

帖子

8

积分

新手上路

Rank: 1

积分
8
发表于 2022-11-30 15:00:28 | 显示全部楼层
通用型转录因子和特异性转录因子如何区分呀,求大佬指点?
回复

使用道具 举报

2

主题

8

帖子

13

积分

新手上路

Rank: 1

积分
13
发表于 2022-11-30 15:01:09 | 显示全部楼层
您好,我也遇到了同样的问题,您解决了麽?
回复

使用道具 举报

1

主题

5

帖子

6

积分

新手上路

Rank: 1

积分
6
发表于 2022-11-30 15:01:46 | 显示全部楼层
你好,这种情况你解决了么,我也是遇到这个问题
回复

使用道具 举报

1

主题

7

帖子

11

积分

新手上路

Rank: 1

积分
11
发表于 2022-11-30 15:02:35 | 显示全部楼层
你好,我在BBS生命科学共享的引领者这个公众号看到了和你这篇内容,并且没有看到引用的标记,你有给他们授权吗
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|启明办公

Copyright © 2001-2013 Comsenz Inc.Template by Comsenz Inc.All Rights Reserved.

Powered by Discuz!X3.4

快速回复 返回顶部 返回列表