一、转录因子简介
定义: 转录因子(Transcription factor, TF)是指能够结合在基因上游特异核苷酸序列(Transcription factor binding site, TFBS,转录因子结合位点;也叫motif)上,并调控基因转录的一类蛋白质。
转录因子一般包含至少两种结构域:
(1)一个或多个DNA结合域(DNA-binding domain, DBD),通过DBD识别和结合DNA位点;
(2)转录效应结构域,包含其他蛋白结合位点,用于结合其他转录参与蛋白,形成复合物。
叨叨几句:
首先,一个转录因子通常可与多个TFBS结合,结合在不同的位点往往执行不同的功能:结合到一个位点时可以激活转录,结合到另一位点可能抑制转录。其次,理论上转录因子可以结合在基因的任何区域,但通常只有结合在启动子区才有生物学意义。最后,转录因子通常不会单独发挥作用,而是与其他转录因子或辅助因子形成复合物,再执行功能。
二、转录因子的预测
贴几个常用的网站:
https://www.ncbi.nlm.nih.gov/pubmed (找启动子序列用)
http://genome.ucsc.edu/ (预测转录因子用)
http://jaspar.genereg.net/ (预测转录因子用)
(1)转录因子的预测第一步:获取基因的启动子序列
在浏览器输入网址www.ncbi.nlm.nih.gov/,访问NCBI主页,选择Gene数据库,输入需要预测的基因名称,这里以PICSAR基因为例,点击“Search”按钮。
在检索结果列表里找到目标基因,点击基因名称,然后“Search”
在“Genomic context”里找到基因所在的染色体及Location
PICSAR在基因组中的位置为:Chr21:44999208-45004727,且在互补链(也叫反义链)上,即转录方向为反向(从下方图谱中的红色箭头也可看出来,转录方向是从右往左)
启动子区域计算:一般认为基因起点上游2000bp及下游100bp的序列为潜在的启动子区:由于PICSAR是反向转录,因此基因的起点位置是45004727的 上游2000bp及下游100bp的序列位置,即45004727-99至45004727+2000,等于Chr21:45004628-45006727。 如果基因的转录方向是正向,则基因的起点为左边的位置坐标,如下图ABCC1基因,转录方向是从左到右,则基因起点为15949577,潜在启动子区域为15949577-2000至15949577+99,即Chr16:15947577-15949676。
页面往下拉,在“Genomic regions, transcripts, and products”下找到“FASTA”。
显示PICSAR的序列(FASTA格式),在右上角输入前面计算所得的启动子区域,点击“Update View”,左边的序列就变成启动子序列。
(2)转录因子预测第二步:查找与启动子结合的转录因子
以预测人PICSAR基因的转录因子为例(JASPAR不能直接预测基因的转录因子,需要借助UCSC)。在浏览器输入网址:http://genome.ucsc.edu/,进入UCSC数据库主页,在顶部导航栏的My Data里找到并点击Track Hubs。
在Public Hubs中输入“JASPAR”,点击”Search Public Hubs”
在检索结果里找到JSAPAR的条目,点击“Connect”。上面这些步骤是将JASPAR组件添加到UCSC基因浏览器里。
页面提示Connect成功后会自动跳转到基因浏览器的页面,点击顶部导航栏的“Genomes”,选择合适的参照基因组。人类参照基因组有两个,GRCh38是最新版,GRCh37是旧版本。
在搜索框里输入PICSAR基因的启动子区位置(前面已通过NCBI数据库获得),点击“go”
为了方便查看,可设置仅显示JASPAR的track信息(此步可跳过)
稍等一段时间后(也可能是很长一段时间后),就可以查看可与PICSAR基因启动子区结合的转录因子了。
当预测到的转录因子太多时,可通过设置JASPARtrack来过滤掉一部分:
(3)转录因子预测第三步:预测与转录因子结合的位点
在JASPAR主页http://jaspar.genereg.net/ ,检索需要分析的转录因子,加到购物车里,然后点击“View cart”。
进入购物车页面后,在右边的工具栏里找到“Scan”,把前面从NCBI获得的PICSAR启动子序列复制到“Scan”下方的文本框中,阈值设置为90%,点击“Scan”。
刷新后,显示预测的结合位点Analysis results
可以看到输入的6个转录因子,满足预测条件的有4个转录因子(当设置阈值为80%时,则6个都能预测到结合位点),其中MEF2A有3个结合位点,其他转录因子各有1个结合位点(可优先选择结合位点多的转录因子进行验证,也可选择分数最高的)。
三、转录因子预测优化策略
(1)基因表达的相关性
推荐一个网址:http://gepia.cancer-pku.cn/(GEPIA数据库,整合了TCA数据库和GTEx数据库)。
基因Ensemble ID查找网站:http://asia.ensembl.org/index.html
(2)结合序列的保守性
(3)转录复合物分析
(4)组蛋白H3K4me3修饰
老铁们,今天的文章比较长,图片又多
但确实是一篇很实用的工具型文章
建议保存收藏之后好好消化
来源:普拉特泽生物
声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!