研究生《医学生物信息学》作业
班级:专业:姓名:
实验目的:
(1) 掌握中国期刊网全文数据库和万方知识平台中中文原始文献全文的检索
和获得方法。
(2) 掌握Pubmed数据库文献的检索和交大图书馆英文数据库全文的获得方
法。
(3) 掌握核酸序列搜索的方法。
(4) 掌握核酸序列分析的方法。
(5) 掌握PCR引物设计软件的原理、使用及特点。
(6) 掌握蛋白质序列搜索的方法。
(7) 掌握蛋白质序列分析常用软件的使用方法。
研究背景:
AIB1基因为近年来发现的p160类固醇受体转录共激活因子SRC-1家族成员,是新定义的一个原癌基因[1]。该基因表达的蛋白在许多生物学过程中发挥重要作用,如细胞生长,增殖,分化,性成熟,女性生殖功能等[2]。近年发现,该基因的表达异常与多种肿瘤的发生发展有关,以在乳腺癌中研究最多。AIB1基因的高表达与乳腺癌的发生和发展有关[3]。AIB1蛋白通过与雌激素受体相互作用,能强烈地增强雌激素受体的促进靶基因转录的效应,进而引起细胞增殖和肿瘤形成,此外,AIB1蛋白还在多条信号传导通路中发挥作用[4]。
AIB1基因(amplified in breast cancer1)又称为ACTR,TRAM1,RAC3,SRC3,NCoA3,P/CIP等。本人选择其为研究对象。
实验步骤及结果:
在Genbank中查找序列,登陆NCBI主页,网址:,页面显示如下:
在Search后的下拉菜单里,选择nucleotide。然后,输入“AIB1”,点击“Search”开始查找,结果如下:
共找到43条序列,其中第18条,即是最符合要求的AIB1基因序列。
序列登陆号为:AF012108,点击题名,打开序列:
序列总长6835 bp,为mRNA。序列具体如下:
1 cggcggcggc tgcggcttag tcggtggcgg ccggcggcgg ctgcgggctg agcggcgagt
61 ttccgattta aagctgagct gcgaggaaaa tggcggcggg aggatcaaaa tacttgctgg
121 atggtggact cagagaccaa taaaaataaa ctgcttgaac atcctttgac tggttagcca
181 gttgctgatg tatattcaag atgagtggat taggagaaaa cttggatcca ctggccagtg
241 attcacgaaa acgcaaattg ccatgtgata ctccaggaca aggtcttacc tgcagtggtg
301 aaaaacggag acgggagcag gaaagtaaat atattgaaga attggctgag ctgatatctg
361 ccaatcttag tgatattgac aatttcaatg tcaaaccaga taaatgtgcg attttaaagg
421 aaacagtaag acagatacgt caaataaaag agcaaggaaa aactatttcc aatgatgatg
481 atgttcaaaa agccgatgta tcttctacag ggcagggagt tattgataaa gactccttag
541 gaccgctttt acttcaggca ttggatggtt tcctatttgt ggtgaatcga gacggaaaca
601 ttgtatttgt atcagaaaat gtcacacaat acctgcaata taagcaagag gacctggtta
661 acacaagtgt ttacaatatc ttacatgaag aagacagaaa ggattttctt aagaatttac
721 caaaatctac agttaatgga gtttcctgga caaatgagac ccaaagacaa aaaagccata
781 catttaattg ccgtatgttg atgaaaacac cacatgatat tctggaagac ataaacgcca
841 gtcctgaaat gcgccagaga tatgaaacaa tgcagtgctt tgccctgtct cagccacgag
901 ctatgatgga ggaaggggaa gatttgcaat cttgtatgat ctgtgtggca cgccgcatta
961 ctacaggaga aagaacattt ccatcaaacc ctgagagctt tattaccaga catgatcttt
1021 caggaaaggt tgtcaatata gatacaaatt cactgagatc ctccatgagg cctggctttg
1081 aagatataat ccgaaggtgt attcagagat tttttagtct aaatgatggg cagtcatggt
1141 cccagaaacg tcactatcaa gaagcttatc ttaatggcca tgcagaaacc ccagtatatc
1201 gattctcgtt ggctgatgga actatagtga ctgcacagac aaaaagcaaa ctcttccgaa
1261 atcctgtaac aaatgatcga catggctttg tctcaaccca cttccttcag agagaacaga
1321 atggatatag accaaaccca aatcctgttg gacaagggat tagaccacct atggctggat
1381 gcaacagttc ggtaggcggc atgagtatgt cgccaaacca aggcttacag atgccgagca
1441 gcagggccta tggcttggca gaccctagca ccacagggca gatgagtgga gctaggtatg
1501 ggggttccag taacatagct tcattgaccc ctgggccagg catgcaatca ccatcttcct
1561 accagaacaa caactatggg ctcaacatga gtagcccccc acatgggagt cctggtcttg
1621 ccccaaacca gcagaatatc atgatttctc ctcgtaatcg tgggagtcca aagatagcct
1681 cacatcagtt ttctcctgtt gcaggtgtgc actctcccat ggcatcttct ggcaatactg
1741 ggaaccacag cttttccagc agctctctca gtgccctgca agccatcagt gaaggtgtgg
1801 ggacttccct tttatctact ctgtcatcac caggccccaa attggataac tctcccaata
1861 tgaatattac ccaaccaagt aaagtaagca atcaggattc caagagtcct ctgggctttt
1921 attgcgacca aaatccagtg gagagttcaa tgtgtcagtc aaatagcaga gatcacctca
1981 gtgacaaaga aagtaaggag agcagtgttg agggggcaga gaatcaaagg ggtcctttgg
2041 aaagcaaagg tcataaaaaa ttactgcagt tacttacctg ttcttctgat gaccggggtc
2101 attcctcctt gaccaactcc cccctagatt caagttgtaa agaatcttct gttagtgtca
2161 ccagcccctc tggagtctcc tcctctacat ctggaggagt atcctctaca tccaatatgc
2221 atgggtcact gttacaagag aagcaccgga ttttgcacaa gttgctgcag aatgggaatt
2281 caccagctga ggtagccaag attactgcag aagccactgg gaaagacacc agcagtataa
2341 cttcttgtgg ggacggaaat gttgtcaagc aggagcagct aagtcctaag aagaaggaga
2401 ataatgcact tcttagatac ctgctggaca gggatgatcc tagtgatgca ctctctaaag
2461 aactacagcc ccaagtggaa ggagtggata ataaaatgag tcagtgcacc agctccacca
2521 ttcctagctc aagtcaagag aaagacccta aaattaagac agagacaagt gaagagggat
2581 ctggagactt ggataatcta gatgctattc ttggtgatct gactagttct gacttttaca
2641 ataattccat atcctcaaat ggtagtcatc tggggactaa gcaacaggtg tttcaaggaa
2701 ctaattctct gggtttgaaa agttcacagt ctgtgcagtc tattcgtcct ccatataacc
2761 gagcagtgtc tctggatagc cctgtttctg ttggctcaag tcctccagta aaaaatatca
2821 gtgctttccc catgttacca aagcaaccca tgttgggtgg gaatccaaga atgatggata
2881 gtcaggaaaa ttatggctca agtatgggtg ggccaaaccg aaatgtgact gtgactcaga
2941 ctccttcctc aggagactgg ggcttaccaa actcaaaggc cggcagaatg gaacctatga
3001 attcaaactc catgggaaga ccaggaggag attataatac ttctttaccc agacctgcac
3061 tgggtggctc tattcccaca ttgcctcttc ggtctaatag cataccaggt gcgagaccag
3121 tattgcaaca gcagcagcag atgcttcaaa tgaggcctgg tgaaatcccc atgggaatgg
3181 gggctaatcc ctatggccaa gcagcagcat ctaaccaact gggttcctgg cccgatggca
3241 tgttgtccat ggaacaagtt tctcatggca ctcaaaatag gcctcttctt aggaattccc
3301 tggatgatct tgttgggcca ccttccaacc tggaaggcca gagtgacgaa agagcattat
3361 tggaccagct gcacactctt ctcagcaaca cagatgccac aggcctggaa gaaattgaca
3421 gagctttggg cattcctgaa cttgtcaatc agggacaggc attagagccc aaacaggatg
3481 ctttccaagg ccaagaagca gcagtaatga tggatcagaa ggcaggatta tatggacaga
3541 catacccagc acaggggcct ccaatgcaag gaggctttca tcttcaggga caatcaccat
3601 cttttaactc tatgatgaat cagatgaacc agcaaggcaa ttttcctctc caaggaatgc
3661 acccacgagc caacatcatg agaccccgga caaacacccc caagcaactt agaatgcagc
3721 ttcagcagag gctgcagggc cagcagtttt tgaatcagag ccgacaggca cttgaattga
3781 aaatggaaaa ccctactgct ggtggtgctg cggtgatgag gcctatgatg cagccccagc
3841 agggttttct taatgctcaa atggtcgccc aacgcagcag agagctgcta agtcatcact
3901 tccgacaaca gagggtggct atgatgatgc agcagcagca gcagcagcaa cagcagcagc
3961 agcagcagca gcagcagcaa cagcaacagc aacagcaaca gcagcaacag cagcaaaccc
4021 aggccttcag cccacctcct aatgtgactg cttcccccag catggatggg cttttggcag
4081 gacccacaat gccacaagct cctccgcaac agtttccata tcaaccaaat tatggaatgg
4141 gacaacaacc agatccagcc tttggtcgag tgtctagtcc tcccaatgca atgatgtcgt
4201 caagaatggg tccctcccag aatcccatga tgcaacaccc gcaggctgca tccatctatc
4261 agtcctcaga aatgaagggc tggccatcag gaaatttggc caggaacagc tccttttccc
4321 agcagcagtt tgcccaccag gggaatcctg cagtgtatag tatggtgcac atgaatggca
4381 gcagtggtca catgggacag atgaacatga accccatgcc catgtctggc atgcctatgg
4441 gtcctgatca gaaatactgc tgacatctct gcaccaggac ctcttaagga aaccactgta
4501 caaatgacac tgcactagga ttattgggaa ggaatcattg ttccaggcat ccatcttgga
4561 agaaaggacc agctttgagc tccatcaagg gtattttaag tgatgtcatt tgagcaggac
4621 tggattttaa gccgaagggc aatatctacg tgtttttccc ccctccttct gctgtgtatc
4681 atggtgttca aaacagaaat gttttttggc attccacctc ctagggatat aattctggag
4741 acatggagtg ttactgatca taaaactttt gtgtcacttt tttctgcctt gctagccaaa
4801 atctcttaaa tacacgtagg tgggccagag aacattggaa gaatcaagag agattagaat
4861 atctggtttc tctagttgca gtattggaca aagagcatag tcccagcctt caggtgtagt
4921 agttctgtgt tgaccctttg tccagtggaa ttggtgattc tgaattgtcc tttactaatg
4981 gtgttgagtt gctctgtccc tattatttgc cctaggcttt ctcctaatga aggttttcat
5041 ttgccattca tgtcctgtaa tacttcacct ccaggaactg tcatggatgt ccaaatggct
5101 ttgcagaaag gaaatgagat gacagtattt aatcgcagca gtagcaaact tttcacatgc
5161 taatgtgcag ctgagtgcac tttatttaaa aagaatggat aaatgcaata ttcttgaggt
5221 cttgagggaa tagtgaaaca cattcctggt ttttgcctac acttacgtgt tagacaagaa
5281 ctatgatttt ttttttaaag tactggtgtc accctttgcc tatatggtag agcaataatg
5341 ctttttaaaa ataaacttct gaaaacccaa ggccaggtac tgcattctga atcagaatct
5401 cgcagtgttt ctgtgaatag atttttttgt aaatatgacc tttaagatat tgtattatgt
5461 aaaatatgta tatacctttt tttgtaggtc acaacaactc atttttacag agtttgtgaa
5521 gctaaatatt taacattgtt gatttcagta agctgtgtgg tgaggctacc agtggaagag
5581 acatcccttg acttttgtgg cctgggggag gggtagtgct ccacagcttt tccttcccca
5641 ccccccagcc ttagatgcct cgctcttttc aatctcttaa tctaaatgct ttttaaagag
5701 attatttgtt tagatgtagg cattttaatt ttttaaaaat tcctctacca gaactaagca
5761 ctttgttaat ttggggggaa agaatagata tggggaaata aacttaaaaa aaaatcagga
5821 atttaaaaaa acgagcaatt tgaagagaat cttttggatt ttaagcagtc cgaaataata
5881 gcaattcatg ggctgtgtgt gtgtgtgtat gtgtgtgtgt gtgtgtgtat gtttaattat
5941 gttacctttt catccccttt aggagcgttt tcagattttg gttgctaaga cctgaatccc
6001 atattgagat ctcgagtaga atccttggtg tggtttctgg tgtctgctca gctgtcccct
6061 cattctacta atgtgatgct ttcattatgt ccctgtggat tagaatagtg tcagttattt
6121 cttaagtaac tcagtaccca gaacagccag ttttactgtg attcagagcc acagtctaac
6181 tgagcacctt ttaaacccct ccctcttctg ccccctacca cttttctgct gttgcctctc
6241 tttgacacct gttttagtca gttgggagga agggaaaaat caagtttaat tccctttatc
6301 tgggttaatt catttggttc aaatagttga cggaattggg tttctgaatg tctgtgaatt
6361 tcagaggtct ctgctagcct tggtatcatt ttctagcaat aactgagagc cagttaattt
6421 taagaatttc acacatttag ccaatctttc tagatgtctc tgaaggtaag atcatttaat
6481 atctttgata tgcttacgag taagtgaatc ctgattattt ccagacccac caccagagtg
6541 gatcttattt tcaaagcagt atagacaatt atgagtttgc cctctttccc ctaccaagtt
6601 caaaatatat ctaagaaaga ttgtaaatcc gaaaacttcc attgtagtgg cctgtgcttt
6661 tcagatagta tactctcctg tttggagaca gaggaagaac caggtcagtc tgtctctttt
6721 tcagctcaat tgtatctgac ccttctttaa gttatgtgtg tggggagaaa tagaatggtg
6781 ctcttatctt tcttgacttt aaaaaaatta ttaaaaacaa aaaaaaaaaa aaaaa
根据序列,设计PCR引物:
登陆引物设计软件primer3网址http://frodo.wi.mit.edu/primer3/。输入GenBank格式的核苷酸序列,运算得到:
上游引物:5’acatgggagtcctggtcttg 3’
下游引物:5’aagtccccacaccttcactg3’
产物:206 bp。
引物与模板结合的位点显示如下:
其余4对备选引物,如下:
使用NCBI网站中的BLAST工具进行序列一致性比对
登陆http://blast.ncbi.nlm.nih.gov/,选择核酸序列比对BLAST,界面显示如下,
输入登录号,AF012108,点击“BLAST”。结果如下:
共有2条核苷酸序列和2条基因组序列和其匹配:
第一条核苷酸序列为“Homo sapiens nuclear receptor coactivator 3 (NCOA3), transcript variant 2, mRNA”,登录号:NM_006534。
第一条基因组序列为“Homo sapiens chromosome 20 genomic contig, GRCh37 reference primary Assembly”,登录号:NT_011362。比对结果说明,AIB1基因是定位在20号染色体,第16326754至16480623位核苷酸之间。
AIB1蛋白在NCBI protein数据库中的登录号为AAC51677,氨基酸序列为:
1 msglgenldp lasdsrkrkl pcdtpgqglt csgekrrreq eskyieelae lisanlsdid
61 nfnvkpdkca ilketvrqir qikeqgktis ndddvqkadv sstgqgvidk dslgplllqa
121 ldgflfvvnr dgnivfvsen vtqylqykqe dlvntsvyni lheedrkdfl knlpkstvng
181 vswtnetqrq kshtfncrml mktphdiled inaspemrqr yetmqcfals qprammeege
241 dlqscmicva rrittgertf psnpesfitr hdlsgkvvni dtnslrssmr pgfediirrc
301 iqrffslndg qswsqkrhyq eaylnghaet pvyrfsladg tivtaqtksk lfrnpvtndr
361 hgfvsthflq reqngyrpnp npvgqgirpp magcnssvgg msmspnqglq mpssraygla
421 dpsttgqmsg aryggssnia sltpgpgmqs pssyqnnnyg lnmsspphgs pglapnqqni
481 misprnrgsp kiashqfspv agvhspmass gntgnhsfss sslsalqais egvgtsllst
541 lsspgpkldn spnmnitqps kvsnqdsksp lgfycdqnpv essmcqsnsr dhlsdkeske
601 ssvegaenqr gpleskghkk llqlltcssd drghssltns pldssckess vsvtspsgvs
661 sstsggvsst snmhgsllqe khrilhkllq ngnspaevak itaeatgkdt ssitscgdgn
721 vvkqeqlspk kkennallry lldrddpsda lskelqpqve gvdnkmsqct sstipsssqe
781 kdpkiktets eegsgdldnl dailgdltss dfynnsissn gshlgtkqqv fqgtnslglk
841 ssqsvqsirp pynravslds pvsvgssppv knisafpmlp kqpmlggnpr mmdsqenygs
901 smggpnrnvt vtqtpssgdw glpnskagrm epmnsnsmgr pggdyntslp rpalggsipt
961 lplrsnsipg arpvlqqqqq mlqmrpgeip mgmganpygq aaasnqlgsw pdgmlsmeqv
1021 shgtqnrpll rnslddlvgp psnlegqsde ralldqlhtl lsntdatgle eidralgipe
1081 lvnqgqalep kqdafqgqea avmmdqkagl ygqtypaqgp pmqggfhlqg qspsfnsmmn
1141 qmnqqgnfpl qgmhpranim rprtntpkql rmqlqqrlqg qqflnqsrqa lelkmenpta
1201 ggaavmrpmm qpqqgflnaq mvaqrsrell shhfrqqrva mmmqqqqqqq qqqqqqqqqq
1261 qqqqqqqqqq qqtqafsppp nvtaspsmdg llagptmpqa ppqqfpyqpn ygmgqqpdpa
1321 fgrvssppna mmssrmgpsq npmmqhpqaa siyqssemkg wpsgnlarns sfsqqqfahq
1381 gnpavysmvh mngssghmgq mnmnpmpmsg mpmgpdqkyc
共1420个氨基酸残基组成。
使用protparam在线软件分析蛋白质基本理化性质,网址http://www.expasy.ch/tools/protparam.html。结果如下,分子量:154891,理论等电点:7.16,为不稳定蛋白,亲水。
跨膜区序列和方向预测:,
结果如下,分析显示该蛋白没有跨膜区。
使用SignalP(http://www.cbs.dtu.dk/services/SignalP/)预测信号肽切割位点。神经网络及隐氏马尔可夫模型均认为该蛋白为非分泌性蛋白,无信号肽位点。
使用GOR4软件(http://npsa-pbil.ibcp.fr/cgi-bin/npsa_automat.pl?page=npsa_gor4.html)预测蛋白质的二级结构:
该蛋白二级结构以随意卷曲为主,还包括延伸链及螺旋。
使用http://www.rcsb.org/pdb/search/advSearch.do?st=SequenceQuery,预测蛋白质三级结构及功能,共匹配到9个结果,
第一条为“Mutual Synergistic Folding in the Interaction Between Nuclear Receptor Coactivators CBP and ACTR”,该蛋白功能分类为细胞核受体,与转录有关。因此,推测AIB1蛋白的功能也为细胞核受体,与转录有关。三维结构如下:
分析与讨论:
参考文献:
[1]韩肖燕, 张雪梅, 陈悦, 等. 子宫内膜癌中AIB1蛋白表达水平的研究[J]. 华西医学, 2007, 22(1): 20-21.
[2]韩肖燕. AIB1基因与妇科肿瘤[J]. 国外医学妇产科学分册, 2007, 34(3): 173-176.
[3]Li AJ, Lerner DL, Gapuzan ME, et al. AIB1 polymorphisms predict aggressive ovarian cancer phenotype[J]. Cancer Epidemiol Biomarkers Prev, 2005, 14(12): 2919-2922.
[4]韩肖燕, 张雪梅, 陈悦, 等. AIB1蛋白在妇科肿瘤中的表达[J]. 四川大学学报(医学版), 2007, 38(2): 246-249.
研究生《医学生物信息学》作业
班级:专业:姓名:
实验目的:
(1) 掌握中国期刊网全文数据库和万方知识平台中中文原始文献全文的检索
和获得方法。
(2) 掌握Pubmed数据库文献的检索和交大图书馆英文数据库全文的获得方
法。
(3) 掌握核酸序列搜索的方法。
(4) 掌握核酸序列分析的方法。
(5) 掌握PCR引物设计软件的原理、使用及特点。
(6) 掌握蛋白质序列搜索的方法。
(7) 掌握蛋白质序列分析常用软件的使用方法。
研究背景:
AIB1基因为近年来发现的p160类固醇受体转录共激活因子SRC-1家族成员,是新定义的一个原癌基因[1]。该基因表达的蛋白在许多生物学过程中发挥重要作用,如细胞生长,增殖,分化,性成熟,女性生殖功能等[2]。近年发现,该基因的表达异常与多种肿瘤的发生发展有关,以在乳腺癌中研究最多。AIB1基因的高表达与乳腺癌的发生和发展有关[3]。AIB1蛋白通过与雌激素受体相互作用,能强烈地增强雌激素受体的促进靶基因转录的效应,进而引起细胞增殖和肿瘤形成,此外,AIB1蛋白还在多条信号传导通路中发挥作用[4]。
AIB1基因(amplified in breast cancer1)又称为ACTR,TRAM1,RAC3,SRC3,NCoA3,P/CIP等。本人选择其为研究对象。
实验步骤及结果:
在Genbank中查找序列,登陆NCBI主页,网址:,页面显示如下:
在Search后的下拉菜单里,选择nucleotide。然后,输入“AIB1”,点击“Search”开始查找,结果如下:
共找到43条序列,其中第18条,即是最符合要求的AIB1基因序列。
序列登陆号为:AF012108,点击题名,打开序列:
序列总长6835 bp,为mRNA。序列具体如下:
1 cggcggcggc tgcggcttag tcggtggcgg ccggcggcgg ctgcgggctg agcggcgagt
61 ttccgattta aagctgagct gcgaggaaaa tggcggcggg aggatcaaaa tacttgctgg
121 atggtggact cagagaccaa taaaaataaa ctgcttgaac atcctttgac tggttagcca
181 gttgctgatg tatattcaag atgagtggat taggagaaaa cttggatcca ctggccagtg
241 attcacgaaa acgcaaattg ccatgtgata ctccaggaca aggtcttacc tgcagtggtg
301 aaaaacggag acgggagcag gaaagtaaat atattgaaga attggctgag ctgatatctg
361 ccaatcttag tgatattgac aatttcaatg tcaaaccaga taaatgtgcg attttaaagg
421 aaacagtaag acagatacgt caaataaaag agcaaggaaa aactatttcc aatgatgatg
481 atgttcaaaa agccgatgta tcttctacag ggcagggagt tattgataaa gactccttag
541 gaccgctttt acttcaggca ttggatggtt tcctatttgt ggtgaatcga gacggaaaca
601 ttgtatttgt atcagaaaat gtcacacaat acctgcaata taagcaagag gacctggtta
661 acacaagtgt ttacaatatc ttacatgaag aagacagaaa ggattttctt aagaatttac
721 caaaatctac agttaatgga gtttcctgga caaatgagac ccaaagacaa aaaagccata
781 catttaattg ccgtatgttg atgaaaacac cacatgatat tctggaagac ataaacgcca
841 gtcctgaaat gcgccagaga tatgaaacaa tgcagtgctt tgccctgtct cagccacgag
901 ctatgatgga ggaaggggaa gatttgcaat cttgtatgat ctgtgtggca cgccgcatta
961 ctacaggaga aagaacattt ccatcaaacc ctgagagctt tattaccaga catgatcttt
1021 caggaaaggt tgtcaatata gatacaaatt cactgagatc ctccatgagg cctggctttg
1081 aagatataat ccgaaggtgt attcagagat tttttagtct aaatgatggg cagtcatggt
1141 cccagaaacg tcactatcaa gaagcttatc ttaatggcca tgcagaaacc ccagtatatc
1201 gattctcgtt ggctgatgga actatagtga ctgcacagac aaaaagcaaa ctcttccgaa
1261 atcctgtaac aaatgatcga catggctttg tctcaaccca cttccttcag agagaacaga
1321 atggatatag accaaaccca aatcctgttg gacaagggat tagaccacct atggctggat
1381 gcaacagttc ggtaggcggc atgagtatgt cgccaaacca aggcttacag atgccgagca
1441 gcagggccta tggcttggca gaccctagca ccacagggca gatgagtgga gctaggtatg
1501 ggggttccag taacatagct tcattgaccc ctgggccagg catgcaatca ccatcttcct
1561 accagaacaa caactatggg ctcaacatga gtagcccccc acatgggagt cctggtcttg
1621 ccccaaacca gcagaatatc atgatttctc ctcgtaatcg tgggagtcca aagatagcct
1681 cacatcagtt ttctcctgtt gcaggtgtgc actctcccat ggcatcttct ggcaatactg
1741 ggaaccacag cttttccagc agctctctca gtgccctgca agccatcagt gaaggtgtgg
1801 ggacttccct tttatctact ctgtcatcac caggccccaa attggataac tctcccaata
1861 tgaatattac ccaaccaagt aaagtaagca atcaggattc caagagtcct ctgggctttt
1921 attgcgacca aaatccagtg gagagttcaa tgtgtcagtc aaatagcaga gatcacctca
1981 gtgacaaaga aagtaaggag agcagtgttg agggggcaga gaatcaaagg ggtcctttgg
2041 aaagcaaagg tcataaaaaa ttactgcagt tacttacctg ttcttctgat gaccggggtc
2101 attcctcctt gaccaactcc cccctagatt caagttgtaa agaatcttct gttagtgtca
2161 ccagcccctc tggagtctcc tcctctacat ctggaggagt atcctctaca tccaatatgc
2221 atgggtcact gttacaagag aagcaccgga ttttgcacaa gttgctgcag aatgggaatt
2281 caccagctga ggtagccaag attactgcag aagccactgg gaaagacacc agcagtataa
2341 cttcttgtgg ggacggaaat gttgtcaagc aggagcagct aagtcctaag aagaaggaga
2401 ataatgcact tcttagatac ctgctggaca gggatgatcc tagtgatgca ctctctaaag
2461 aactacagcc ccaagtggaa ggagtggata ataaaatgag tcagtgcacc agctccacca
2521 ttcctagctc aagtcaagag aaagacccta aaattaagac agagacaagt gaagagggat
2581 ctggagactt ggataatcta gatgctattc ttggtgatct gactagttct gacttttaca
2641 ataattccat atcctcaaat ggtagtcatc tggggactaa gcaacaggtg tttcaaggaa
2701 ctaattctct gggtttgaaa agttcacagt ctgtgcagtc tattcgtcct ccatataacc
2761 gagcagtgtc tctggatagc cctgtttctg ttggctcaag tcctccagta aaaaatatca
2821 gtgctttccc catgttacca aagcaaccca tgttgggtgg gaatccaaga atgatggata
2881 gtcaggaaaa ttatggctca agtatgggtg ggccaaaccg aaatgtgact gtgactcaga
2941 ctccttcctc aggagactgg ggcttaccaa actcaaaggc cggcagaatg gaacctatga
3001 attcaaactc catgggaaga ccaggaggag attataatac ttctttaccc agacctgcac
3061 tgggtggctc tattcccaca ttgcctcttc ggtctaatag cataccaggt gcgagaccag
3121 tattgcaaca gcagcagcag atgcttcaaa tgaggcctgg tgaaatcccc atgggaatgg
3181 gggctaatcc ctatggccaa gcagcagcat ctaaccaact gggttcctgg cccgatggca
3241 tgttgtccat ggaacaagtt tctcatggca ctcaaaatag gcctcttctt aggaattccc
3301 tggatgatct tgttgggcca ccttccaacc tggaaggcca gagtgacgaa agagcattat
3361 tggaccagct gcacactctt ctcagcaaca cagatgccac aggcctggaa gaaattgaca
3421 gagctttggg cattcctgaa cttgtcaatc agggacaggc attagagccc aaacaggatg
3481 ctttccaagg ccaagaagca gcagtaatga tggatcagaa ggcaggatta tatggacaga
3541 catacccagc acaggggcct ccaatgcaag gaggctttca tcttcaggga caatcaccat
3601 cttttaactc tatgatgaat cagatgaacc agcaaggcaa ttttcctctc caaggaatgc
3661 acccacgagc caacatcatg agaccccgga caaacacccc caagcaactt agaatgcagc
3721 ttcagcagag gctgcagggc cagcagtttt tgaatcagag ccgacaggca cttgaattga
3781 aaatggaaaa ccctactgct ggtggtgctg cggtgatgag gcctatgatg cagccccagc
3841 agggttttct taatgctcaa atggtcgccc aacgcagcag agagctgcta agtcatcact
3901 tccgacaaca gagggtggct atgatgatgc agcagcagca gcagcagcaa cagcagcagc
3961 agcagcagca gcagcagcaa cagcaacagc aacagcaaca gcagcaacag cagcaaaccc
4021 aggccttcag cccacctcct aatgtgactg cttcccccag catggatggg cttttggcag
4081 gacccacaat gccacaagct cctccgcaac agtttccata tcaaccaaat tatggaatgg
4141 gacaacaacc agatccagcc tttggtcgag tgtctagtcc tcccaatgca atgatgtcgt
4201 caagaatggg tccctcccag aatcccatga tgcaacaccc gcaggctgca tccatctatc
4261 agtcctcaga aatgaagggc tggccatcag gaaatttggc caggaacagc tccttttccc
4321 agcagcagtt tgcccaccag gggaatcctg cagtgtatag tatggtgcac atgaatggca
4381 gcagtggtca catgggacag atgaacatga accccatgcc catgtctggc atgcctatgg
4441 gtcctgatca gaaatactgc tgacatctct gcaccaggac ctcttaagga aaccactgta
4501 caaatgacac tgcactagga ttattgggaa ggaatcattg ttccaggcat ccatcttgga
4561 agaaaggacc agctttgagc tccatcaagg gtattttaag tgatgtcatt tgagcaggac
4621 tggattttaa gccgaagggc aatatctacg tgtttttccc ccctccttct gctgtgtatc
4681 atggtgttca aaacagaaat gttttttggc attccacctc ctagggatat aattctggag
4741 acatggagtg ttactgatca taaaactttt gtgtcacttt tttctgcctt gctagccaaa
4801 atctcttaaa tacacgtagg tgggccagag aacattggaa gaatcaagag agattagaat
4861 atctggtttc tctagttgca gtattggaca aagagcatag tcccagcctt caggtgtagt
4921 agttctgtgt tgaccctttg tccagtggaa ttggtgattc tgaattgtcc tttactaatg
4981 gtgttgagtt gctctgtccc tattatttgc cctaggcttt ctcctaatga aggttttcat
5041 ttgccattca tgtcctgtaa tacttcacct ccaggaactg tcatggatgt ccaaatggct
5101 ttgcagaaag gaaatgagat gacagtattt aatcgcagca gtagcaaact tttcacatgc
5161 taatgtgcag ctgagtgcac tttatttaaa aagaatggat aaatgcaata ttcttgaggt
5221 cttgagggaa tagtgaaaca cattcctggt ttttgcctac acttacgtgt tagacaagaa
5281 ctatgatttt ttttttaaag tactggtgtc accctttgcc tatatggtag agcaataatg
5341 ctttttaaaa ataaacttct gaaaacccaa ggccaggtac tgcattctga atcagaatct
5401 cgcagtgttt ctgtgaatag atttttttgt aaatatgacc tttaagatat tgtattatgt
5461 aaaatatgta tatacctttt tttgtaggtc acaacaactc atttttacag agtttgtgaa
5521 gctaaatatt taacattgtt gatttcagta agctgtgtgg tgaggctacc agtggaagag
5581 acatcccttg acttttgtgg cctgggggag gggtagtgct ccacagcttt tccttcccca
5641 ccccccagcc ttagatgcct cgctcttttc aatctcttaa tctaaatgct ttttaaagag
5701 attatttgtt tagatgtagg cattttaatt ttttaaaaat tcctctacca gaactaagca
5761 ctttgttaat ttggggggaa agaatagata tggggaaata aacttaaaaa aaaatcagga
5821 atttaaaaaa acgagcaatt tgaagagaat cttttggatt ttaagcagtc cgaaataata
5881 gcaattcatg ggctgtgtgt gtgtgtgtat gtgtgtgtgt gtgtgtgtat gtttaattat
5941 gttacctttt catccccttt aggagcgttt tcagattttg gttgctaaga cctgaatccc
6001 atattgagat ctcgagtaga atccttggtg tggtttctgg tgtctgctca gctgtcccct
6061 cattctacta atgtgatgct ttcattatgt ccctgtggat tagaatagtg tcagttattt
6121 cttaagtaac tcagtaccca gaacagccag ttttactgtg attcagagcc acagtctaac
6181 tgagcacctt ttaaacccct ccctcttctg ccccctacca cttttctgct gttgcctctc
6241 tttgacacct gttttagtca gttgggagga agggaaaaat caagtttaat tccctttatc
6301 tgggttaatt catttggttc aaatagttga cggaattggg tttctgaatg tctgtgaatt
6361 tcagaggtct ctgctagcct tggtatcatt ttctagcaat aactgagagc cagttaattt
6421 taagaatttc acacatttag ccaatctttc tagatgtctc tgaaggtaag atcatttaat
6481 atctttgata tgcttacgag taagtgaatc ctgattattt ccagacccac caccagagtg
6541 gatcttattt tcaaagcagt atagacaatt atgagtttgc cctctttccc ctaccaagtt
6601 caaaatatat ctaagaaaga ttgtaaatcc gaaaacttcc attgtagtgg cctgtgcttt
6661 tcagatagta tactctcctg tttggagaca gaggaagaac caggtcagtc tgtctctttt
6721 tcagctcaat tgtatctgac ccttctttaa gttatgtgtg tggggagaaa tagaatggtg
6781 ctcttatctt tcttgacttt aaaaaaatta ttaaaaacaa aaaaaaaaaa aaaaa
根据序列,设计PCR引物:
登陆引物设计软件primer3网址http://frodo.wi.mit.edu/primer3/。输入GenBank格式的核苷酸序列,运算得到:
上游引物:5’acatgggagtcctggtcttg 3’
下游引物:5’aagtccccacaccttcactg3’
产物:206 bp。
引物与模板结合的位点显示如下:
其余4对备选引物,如下:
使用NCBI网站中的BLAST工具进行序列一致性比对
登陆http://blast.ncbi.nlm.nih.gov/,选择核酸序列比对BLAST,界面显示如下,
输入登录号,AF012108,点击“BLAST”。结果如下:
共有2条核苷酸序列和2条基因组序列和其匹配:
第一条核苷酸序列为“Homo sapiens nuclear receptor coactivator 3 (NCOA3), transcript variant 2, mRNA”,登录号:NM_006534。
第一条基因组序列为“Homo sapiens chromosome 20 genomic contig, GRCh37 reference primary Assembly”,登录号:NT_011362。比对结果说明,AIB1基因是定位在20号染色体,第16326754至16480623位核苷酸之间。
AIB1蛋白在NCBI protein数据库中的登录号为AAC51677,氨基酸序列为:
1 msglgenldp lasdsrkrkl pcdtpgqglt csgekrrreq eskyieelae lisanlsdid
61 nfnvkpdkca ilketvrqir qikeqgktis ndddvqkadv sstgqgvidk dslgplllqa
121 ldgflfvvnr dgnivfvsen vtqylqykqe dlvntsvyni lheedrkdfl knlpkstvng
181 vswtnetqrq kshtfncrml mktphdiled inaspemrqr yetmqcfals qprammeege
241 dlqscmicva rrittgertf psnpesfitr hdlsgkvvni dtnslrssmr pgfediirrc
301 iqrffslndg qswsqkrhyq eaylnghaet pvyrfsladg tivtaqtksk lfrnpvtndr
361 hgfvsthflq reqngyrpnp npvgqgirpp magcnssvgg msmspnqglq mpssraygla
421 dpsttgqmsg aryggssnia sltpgpgmqs pssyqnnnyg lnmsspphgs pglapnqqni
481 misprnrgsp kiashqfspv agvhspmass gntgnhsfss sslsalqais egvgtsllst
541 lsspgpkldn spnmnitqps kvsnqdsksp lgfycdqnpv essmcqsnsr dhlsdkeske
601 ssvegaenqr gpleskghkk llqlltcssd drghssltns pldssckess vsvtspsgvs
661 sstsggvsst snmhgsllqe khrilhkllq ngnspaevak itaeatgkdt ssitscgdgn
721 vvkqeqlspk kkennallry lldrddpsda lskelqpqve gvdnkmsqct sstipsssqe
781 kdpkiktets eegsgdldnl dailgdltss dfynnsissn gshlgtkqqv fqgtnslglk
841 ssqsvqsirp pynravslds pvsvgssppv knisafpmlp kqpmlggnpr mmdsqenygs
901 smggpnrnvt vtqtpssgdw glpnskagrm epmnsnsmgr pggdyntslp rpalggsipt
961 lplrsnsipg arpvlqqqqq mlqmrpgeip mgmganpygq aaasnqlgsw pdgmlsmeqv
1021 shgtqnrpll rnslddlvgp psnlegqsde ralldqlhtl lsntdatgle eidralgipe
1081 lvnqgqalep kqdafqgqea avmmdqkagl ygqtypaqgp pmqggfhlqg qspsfnsmmn
1141 qmnqqgnfpl qgmhpranim rprtntpkql rmqlqqrlqg qqflnqsrqa lelkmenpta
1201 ggaavmrpmm qpqqgflnaq mvaqrsrell shhfrqqrva mmmqqqqqqq qqqqqqqqqq
1261 qqqqqqqqqq qqtqafsppp nvtaspsmdg llagptmpqa ppqqfpyqpn ygmgqqpdpa
1321 fgrvssppna mmssrmgpsq npmmqhpqaa siyqssemkg wpsgnlarns sfsqqqfahq
1381 gnpavysmvh mngssghmgq mnmnpmpmsg mpmgpdqkyc
共1420个氨基酸残基组成。
使用protparam在线软件分析蛋白质基本理化性质,网址http://www.expasy.ch/tools/protparam.html。结果如下,分子量:154891,理论等电点:7.16,为不稳定蛋白,亲水。
跨膜区序列和方向预测:,
结果如下,分析显示该蛋白没有跨膜区。
使用SignalP(http://www.cbs.dtu.dk/services/SignalP/)预测信号肽切割位点。神经网络及隐氏马尔可夫模型均认为该蛋白为非分泌性蛋白,无信号肽位点。
使用GOR4软件(http://npsa-pbil.ibcp.fr/cgi-bin/npsa_automat.pl?page=npsa_gor4.html)预测蛋白质的二级结构:
该蛋白二级结构以随意卷曲为主,还包括延伸链及螺旋。
使用http://www.rcsb.org/pdb/search/advSearch.do?st=SequenceQuery,预测蛋白质三级结构及功能,共匹配到9个结果,
第一条为“Mutual Synergistic Folding in the Interaction Between Nuclear Receptor Coactivators CBP and ACTR”,该蛋白功能分类为细胞核受体,与转录有关。因此,推测AIB1蛋白的功能也为细胞核受体,与转录有关。三维结构如下:
分析与讨论:
参考文献:
[1]韩肖燕, 张雪梅, 陈悦, 等. 子宫内膜癌中AIB1蛋白表达水平的研究[J]. 华西医学, 2007, 22(1): 20-21.
[2]韩肖燕. AIB1基因与妇科肿瘤[J]. 国外医学妇产科学分册, 2007, 34(3): 173-176.
[3]Li AJ, Lerner DL, Gapuzan ME, et al. AIB1 polymorphisms predict aggressive ovarian cancer phenotype[J]. Cancer Epidemiol Biomarkers Prev, 2005, 14(12): 2919-2922.
[4]韩肖燕, 张雪梅, 陈悦, 等. AIB1蛋白在妇科肿瘤中的表达[J]. 四川大学学报(医学版), 2007, 38(2): 246-249.