您的位置:新葡亰496net > 电脑系统 > 新葡亰496net:叩问参考基因组及基因注释,转录

新葡亰496net:叩问参考基因组及基因注释,转录

发布时间:2019-12-01 03:19编辑:电脑系统浏览(127)

    职务列表

    转录组入门(4卡塔尔(英语:State of Qatar):精晓参照他事他说加以考察基因组及基因注释
    在UCSC下载hg19参照他事他说加以考查基因组,作者博客有详细表明,从gencode数据库下载基因注释文件,而且用IGV去查看你感兴趣的基因的布局,譬喻TP53,KRAS,EGFHaval等等。
    作业,截图多少个基因的IGV可视化布局!仍为能够下载ENSEMBL,NCBI的gtf,也导入IGV看看,截图基因布局。领会IGV常识

    • 1.在UCSC下载hg19参阅基因组;
    • 2.从gencode数据库下载基因注释文件,况兼用IGV去查看感兴趣的基因的构造,举个例子TP53,KRAS,EGFPAJERO等等。
    • 3.截图多少个基因的IGV可视化布局
    • 4.下载ENSEMBL,NCBI的gtf,也导入IGV看看,截图基因构造
    • 5.了解IGV常识

    预备专门的学问

    在UCSC下载hg19参阅基因组

    参照基因组

    测序获得的是几百bp的短read, 约等于把拼图打垮了给您。若无参照他事他说加以考查基因组,从头(de novo卡塔尔(英语:State of Qatar)组装等于是重走人类基因组安插的老路,也正是击溃了拼图,却不告知你本来是什么体统,那么职责将会及其辛勤。
    幸亏人类基因组已经建立好了,大家只供给把大家测得类别回贴(mapping卡塔尔(قطر‎回去,终归人与人里面包车型地铁异样唯有不到1%差距, 允许mismatch就行。

    于是首先步就是要去UCSC(http://genome.ucsc.edu/index.html卡塔尔国下载hg19参照基因组(文献供给)

    新葡亰496net 1

    UCSC网站

    新葡亰496net 2

    数量寄存站点

    新葡亰496net 3

    hg19

    新葡亰496net 4

    基因组文件

    昨今分歧文件的所包蕴的数码在该页面有介绍,此中

    chromFa.tar.gz - The assembly sequence in one file per chromosome.Repeats from RepeatMasker and Tandem Repeats Finder (with period of 12 or less) are shown in lower case; non-repeating sequence is shown in upper case.

    自身将数据寄存在Windows的F盘的Data文件夹下,用于后续操作

    cd /mnt/f/Data
    mkdir reference && cd reference
    mkdir -p genome/hg19 && cd genome/hg19
    nohup wget http://hgdownload.soe.ucsc.edu/goldenPath/hg19/bigZips/chromFa.tar.gz &
    tar -zvf chromFa.tar.gz
    cat *.fa > hg19.fa
    rm chr*
    

    新葡亰496net:叩问参考基因组及基因注释,转录组入门。下边包车型地铁内容是吉姆my在【直播】作者的基因组(五):测量试验数据及仿效基因组的预备关于仿效基因组的介绍

    以此对新手来讲,是二个比十分的大的坑,hg19、GRCH37、 ensembl 75那3种基因组版本应该是大家见得超多的了,国际通用的人类参照他事他说加以考察基因组,其实她们积攒的是同大器晚成的fasta体系,只是个别对应着三种国际生物新闻学数据库能源搜聚存款和储蓄单位,即NCBI,UCSC及ENSEMBL各自宣布的基因组消息而已。有局部仿照效法基因组不大众,存款和储蓄的行列也分化,比方BGI做的华夏基因组,还应该有DNA双螺旋构造建议者沃森(沃特son)的基因组,还会有二零一六年见报在nature下边的称之为最周密的印尼人做的基因组。早先时代大家先不思忖那几个小众基因组,首要就下载hg19和hg38,都是UCSC提供的,纵然hg38比较hg19的话,做了重重修改,优点也不菲,但因为方今甘休很多证明音信都是针对于hg19的坐标体系来的,我们就都下载了,偏巧自个儿商量一下。也顺便下载一个小鼠的新型版仿照效法基因组吧,反正比对也便是睡个觉的功力,顺便深入分析一下结果,看看比对率是还是不是异常低。

    吐槽: 吉姆my大神的博客制版真的是老大核准大家对学识的热望,每当看见她的排版的时候,小编必须得忍住不去点击浏览器右上角。为了求知,小编忍了。

    hg19、GRCH38、 ensembl75那3种基因组版本应该是大家见得超级多的了,国际通用的人类参照他事他说加以考察基因组,其实她们积攒的是同生龙活虎的fasta类别,只是个别对应着三种国际生物音讯学数据库财富收罗存款和储蓄单位,即NCBI,UCSC及ENSEMBL各自公布的基因组音信而已。有一点参照他事他说加以考查基因组十分的小众,存款和储蓄的行列也不相符,比如BGI做的华夏基因组,还会有DNA双螺旋构造提议者沃森(Watson)的基因组,还恐怕有二〇一六年刊登在nature下面的称呼最完善的新加坡人做的基因组。中期大家先不思考这个小众基因组,首要就下载hg19和hg38,都以UCSC提供的,尽管hg38相比较hg19的话,做了广大修正,优点也不菲,但因为近些日子结束比超多注明新闻都以针对性于hg19的坐标种类来的,大家就都下载了,恰巧本人探讨一下。也顺便下载二个小鼠的新式版参谋基因组吧,反正比对相当于睡个觉的功力,顺便剖判一下结果,看看比对率是否异常低。

    批注消息

    可是参谋基因组是风流浪漫部无字天书,要想解读书中的内容,要求额外的讲授新闻扶植。
    于是第二步,正是去gencode数据库(http://www.gencodegenes.org/卡塔尔(英语:State of Qatar)下载基因组注释文件。

    新葡亰496net 5

    Gencode

    看了上边这些图,作者才了然吉姆my为啥会嘲弄基因组各类版本对应涉及了。

    新葡亰496net 6

    本子对应

    又到了GTF照旧GFF3的选项时刻,简要介绍了弹指间他们的格式

    新葡亰496net 7

    GTF/GFF3

    GTF(General Transfer Format)其实就是GFF2,以Tab分割,分为如下几列

    1. seqname - name of the chromosome or scaffold; chromosome names can be given with or without the 'chr' prefix. Important note: the seqname must be one used within Ensembl, i.e. a standard chromosome name or an Ensembl identifier such as a scaffold ID, without any additional content such as species or assembly. See the example GFF output below.
    2. source - name of the program that generated this feature, or the data source (database or project name)
    3. feature - feature type name, e.g. Gene, Variation, Similarity
    4. start - Start position of the feature, with sequence numbering starting at 1.
    5. end - End position of the feature, with sequence numbering starting at 1.
    6. score - A floating point value.
    7. strand - defined as (forward) or - (reverse).
    8. frame - One of '0', '1' or '2'. '0' indicates that the first base of the feature is the first base of a codon, '1' that the second base is the first base of a codon, and so on..
    9. attribute - A semicolon-separated list of tag-value pairs, providing additional information about each feature.

    而GFF3(General Feature Format卡塔尔(英语:State of Qatar)的格式如下

    1. seqid - name of the chromosome or scaffold; chromosome names can be given with or without the 'chr' prefix. Important note: the seq ID must be one used within Ensembl, i.e. a standard chromosome name or an Ensembl identifier such as a scaffold ID, without any additional content such as species or assembly. See the example GFF output below.
    2. source - name of the program that generated this feature, or the data source (database or project name)
    3. type - type of feature. Must be a term or accession from the SOFA sequence ontology
    4. start - Start position of the feature, with sequence numbering starting at 1.
    5. end - End position of the feature, with sequence numbering starting at 1.
    6. score - A floating point value.
    7. strand - defined as (forward) or - (reverse).
    8. phase - One of '0', '1' or '2'. '0' indicates that the first base of the feature is the first base of a codon, '1' that the second base is the first base of a codon, and so on..
    9. attributes - A semicolon-separated list of tag-value pairs, providing additional information about each feature. Some of these tags are predefined, e.g. ID, Name, Alias, Parent - see the GFF documentation for more details.

    看不出来有甚差别,不想纠葛就全下载好了。

    nohup wget ftp://ftp.sanger.ac.uk/pub/gencode/Gencode_human/release_26/GRCh37_mapping/gencode.v26lift37.annotation.gtf.gz &
    nohuop wget ftp://ftp.sanger.ac.uk/pub/gencode/Gencode_human/release_26/GRCh37_mapping/gencode.v26lift37.annotation.gff3.gz &
    

    作者们对文字的精通技艺远小于图片,所以下一步须求下载基因组浏览器

    mkdir rna_seq/data/reference && cd rna_seq/data/reference
    mkdir -p genome/hg19 && cd genome/hg19
    # nohup wget http://hgdownload.cse.ucsc.edu/goldenPath/hg19/bigZips/chromFa.tar.gz &
    # nohup 是永久执行,& 是指在后台运行。nohup COMMAND & 这样就能使命令永久的在后台执行
    nohup axel http://hgdownload.cse.ucsc.edu/goldenPath/hg19/bigZips/chromFa.tar.gz &
    tar zvfx chromFa.tar.gz
    cat *.fa > hg19.fa
    rm chr*.fa
    

    IGV, Integrative Genomics Viewer

    下载地址为: http://software.broadinstitute.org/software/igv/download
    Windows下载如下版本, 会自带一个java运维条件

    新葡亰496net 8

    download

    双击igv.bat, 就能并发运营分界面。

    新葡亰496net 9

    双击666

    透过genome -> Load Genome From Files加载在此以前拿到基因组文件。

    新葡亰496net 10

    loading data

    更上一层楼,还供给加载gff基因注释文件,File -> Load From Files

    新葡亰496net 11

    gff

    显示未排序出错,能够动用Tool -> Run igvtools,举办排序。

    新葡亰496net 12

    igvtools

    新葡亰496net 13

    sort

    日后就足以重新加载排序后的gtf文件举行操作。生信宝典写过生龙活虎篇文章介绍测序数据可视化(http://mp.weixin.qq.com/s/Q7pqycmQH58xU6hw_LECWA) 作者也在看文档探寻中,先放上基因截图

    新葡亰496net 14

    gene演示

    上边那张图是缘于于多少个月前吉米my对德州仪器量测序的知晓,提供数据的截图

    新葡亰496net 15

    MediaTek量测序的异同

    从gencode数据库下载基因注释文件,而且用IGV去查看感兴趣的基因的布局

    下载基因注释文件

    官网:

    wget ftp://ftp.sanger.ac.uk/pub/gencode/Gencode_human/release_26/GRCh37_mapping/gencode.v26lift37.annotation.gtf.gz
    gzip -d gencode.v26lift37.annotation.gtf.gz
    

     

    下载安装IGV、BEDtool

    官网: Binary Distribution 版本)

    wget https://github.com/arq5x/bedtools2/releases/download/v2.26.0/bedtools-2.26.0.tar.gz
    tar -zxvf bedtools-2.26.0.tar.gz
    cd bedtools2
    make
    

     

    截图多少个基因的IGV可视化布局

    批量截图:TP53,KRAS,EGF哈弗

    grep -w 'gene' gencode.v26lift37.annotation.gtf | grep -w 'TP53' | cut -f 1,4,5 >> gene.bed
    grep -w 'gene' gencode.v26lift37.annotation.gtf | grep -w 'KRAS' | cut -f 1,4,5 >> gene.bed
    grep -w 'gene' gencode.v26lift37.annotation.gtf | grep -w 'EGFR' | cut -f 1,4,5 >> gene.bed
    ~/biosoft/bedtools2/bin/bedtools igv -i gene.bed > Bach_sanpshot.txt
    

    grep是多个多用项的文书寻觅工具,linux中动用极度频仍,而且应用很利索,能够是变量,也得以是字符串。最基本的用法有以下两种:

    • 1.找寻内容中无空格,可以一贯施行grep命令,比如:grep pass a.txt,表示在a.txt文件中寻觅pass所在的行
    • 2.举个例子寻找内容中有空格,则须求运用单引号大概双引号把寻找内容引起来,举例:grep "hello all" a.txt可能grep 'hello all' a.txt,要是不加单双引号,则提示错误,不恐怕辨识,因为不加引号,直接grep hello all a.txt,表示在all和a.txt中找寻hello,那自然是异形的

    grep -w option file:正确寻觅,能够说正确性寻找,举个例子:grep -w b* a.txt:此命令试行时,*不会默以为其余字符,只表示字面意思,就是三个*字符

    管道命令操作符:”|”,它仅能管理经由前者限令传出的不易输出音信,也正是standard output 的消息,对于 stdandard error 新闻还没直接处理技术。然后,传递给下一个指令,作为规范的输入 standard input

    cut 命令从文件的每风姿罗曼蒂克行剪切字节、字符和字段并将那个字节、字符和字段写至正式输出。要是不点名 File 参数,cut 命令将读取规范输入。必需内定 -b、-c 或 -f 标记之生机勃勃。使用 -f 选项提取钦点字段

    下载ENSEMBL,NCBI的gtf

    axel ftp://ftp.ensembl.org/pub/grch37/release-89/gtf/homo_sapiens/Homo_sapiens.GRCh37.87.gtf.gz
    axel ftp://ftp.ensembl.org/pub/grch37/release-89/gtf/homo_sapiens/Homo_sapiens.GRCh37.87.chr.gtf.gz
    
    axel  ftp://ftp.ncbi.nlm.nih.gov/genomes/Homo_sapiens/ARCHIVE/ANNOTATION_RELEASE.105/GFF/ref_GRCh37.p13_top_level.gff3.gz
    axel ftp://ftp.ncbi.nlm.nih.gov/genomes/Homo_sapiens/ARCHIVE/ANNOTATION_RELEASE.105/GFF/ref_GRCh37.p13_scaffolds.gff3.gz
    

    本文由新葡亰496net发布于电脑系统,转载请注明出处:新葡亰496net:叩问参考基因组及基因注释,转录

    关键词: