到底什么是碱基序列什么是基因序列啊

栏目：资讯发布：2023-10-12浏览：4收藏

到底什么是碱基序列什么是基因序列啊,第1张

1碱基序列：碱基序列通常是指核苷酸序列,包括核糖核酸序列和脱氧核糖核酸序列（即DNA序列和RNA序列）

2基因序列：基因序列是指具有遗传效应的DNA片段并非所有DNA都是基因所以基因序列就只是指具有遗传效应的DNA序列（即能翻译出蛋白质的DNA序列）

3基因重组是原有基因的重新组合，并没有产生新基因，而是产生了新的基因型

4基因突变是染色体上某一位点基因上碱基的而改变，突变的结果产生了新的基因（等位基因）

5染色体变异是指染色体结构和数目发生变化

进化树由结点（node）和进化分支（branch）组成，每一结点表示一个分类学单元（属、种群、个体等），进化分支定义了分类单元（祖先与后代）之间的关系，一个分支只能连接连个相邻的结点。进化树分支的图像称为进化的拓扑结构，其中分支长度表示该分枝进化过程中变化的程度，标有分枝长度的进化分支叫标度枝（scaled branch）。校正后的标度树（scaled tree）常常用年代表示，这样的树通常根据某一或部分基因的理论分析而得出。进化分支可以没有分支长度的标注（unscaled），没有被标注的分支其长度不表示变化的程度，虽然分支的有些地方用数点进行了注释。进化树可以是有根的(rooted)，也可以是无根的（unrooted），分为“有根树”和“无根树”两类。在有根树中，有一个叫根（root）的特殊结点，用来表示共同的祖先，由该点通过唯一途径可产生其他结点；有根树是具有方向的树，包含唯一的节点，将其作为树中所有物种的最近共同祖先。无根树只是指明了种属的相互关系，没有确认共同祖先或进化途径。最常用的确定树根的方法是使用一个或多个无可争议的同源物种作为“外群”（英文outgroup），这个外群要足够近，以提供足够的信息，但又不能太近以致不能和树中的种类相混。把有根树去掉根即成为无根树。一棵无根树在没有其他信息（外群）或假设（如假设最大枝长为根）时不能确定其树根。无根树是没有方向的，其中线段的两个演化方向都有可能。

你好

我们都知道不论真核与原核生物都离不开基因，它储存着生长、发育、凋亡等几乎全部生命过程的信息。那么基因有着哪些结构呢，接下来从三个层面来讨论基因的构成：

一、DNA

编码区 Coding region

基因在结构上，分为编码区和非编码区两部分。真核生物的编码区是不连续的，分为外显子和内含子，在转录过程中会修剪内含子，并拼合外显子来形成转录产物。在原核生物中，基因是连续的，也就是说无外显子和内含子之分。

外显子 Exon

外显子是在 preRNA 经过剪切或修饰后，被保留的DNA部分，并最终出现在成熟RNA的基因序列中。

内含子 Intron

在真核生物中，内含子作为阻断基因的线性表达的一段DNA序列，是在 preRNA 经过剪切或修饰后，被切除的DNA序列

非编码区 Non-coding region

非编码区在对基因的表达调控中发挥重要作用，如启动子，增强子，终止子等都位于该区域，有意思的是在人类基因中非编码区的占比超过90%。它们中的一部分可以转录为功能性RNA，比如tRNA（transfer RNA）, rRNA（ribosomal RNA）等；可以作为DNA复制，转录起始来对复制，转录和翻译起到调控作用；也可能是着丝粒与端粒的重要组成部分。

启动子 Promoter

启动子是特定基因转录的DNA区域，启动子一般位于基因的转录起始位点，5‘端上游，启动子长约100-1000bp。在转录过程中，RNA聚合酶与转录因子可以识别并特异性结合到启动子特有的DNA序列（一般为保守序列），从而启动转录。启动子本身并不转录而且也不控制基因活动，而是通过转录因子结合来调控转录过程。在细胞核中，似乎启动子优先分布在染色体区域的边缘，可能是在不同染色体上共同表达基因。此外，在人类中，启动子显示出每个染色体特有的某些结构特征。

CAAT Box 与 Sextama box

CCAAT box（有时也缩写为CAAT box或CAT box）：具有GGCCAATCT 共有序列的不同核苷酸序列，是真核生物基因常有的调节区，位于转录起始点上游约-80bp处，可能也是RNA聚合酶的一个结合处，控制着转录起始的频率。与之相似的是，在原核生物启动子上-35bp处的TTGACA区，又称-35区。

保守序列与共有序列的概念含义基本相同。保守序列间相似度高，但不一定相同，而共有序列是相同的，共有序列可以理解为一种特殊的保守序列。

CAAT框是最早被人们描述的常见启动子元件之一，常位于接近-80的位置，但是它可以在离起始点较远的距离仍能起作用，且在两种取向均可发挥作用。CAAT框的突变敏感性提示了它在决定转录效率上有很强的作用，但是突变对启动子的特异性没有影响。

TATA Box 与 Pribnow box

TATA 框（TATA box / Goldberg-Hogness box），存在于古细菌和真核生物的核心启动子区域的一段DNA序列，TATA 框的原核同源物称为Pribnow 框（Pribnow box），其具有较短的共有序列TATAATAAT。它约在多数真核生物基因转录起始点上游约-30bp（-25~-32bp）处，基本上由A-T碱基对组成，是决定基因转录始的选择，为RNA聚合酶的结合处之一，RNA聚合酶与TATA框牢固结合之后才能起始转录。

增强子 Enhancer

增强子是位于转录起始位点或下游基因1Mbp的位置，长度50-1500bp的序列，其可以被转录激活因子结合从而增加特定基因转录发生的可能性，广泛的存在于原核与真核生物基因结构中。

增强子能大大增强启动子的活性。增强子有别于启动子处有两点:增强子对于启动子的位置不固定，而能有很大的变动;它能在两个方向产生相互作用。一个增强子并不限于促进某一特殊启动子的转录，它能刺激在它附近的任一启动子。

终止子 Terminator

终止子处于基因或操纵子的末端，给RNA聚合酶提供转录终止信号的DNA序列。

终止子与终止密码子的概念区分：二者在名称上相似，但是含义是截然不同的。终止子是处于基因的非编码区的一段DNA序列，用于终止转录。而终止密码子是在翻译过程中终止肽链合成的mRNA中的三联体碱基序列，一般情况下为UAA，UAG和UGA，不编码为氨基酸。

ATAAA

ATAAA 是 preRNA 在通过修剪后形成成熟mRNA 时在3'UTR产生ployA 是的加尾信号。但是这段序列并不是绝对保守，也可能为其他A富集的序列，比如AATAAA等。

回文序列 palindrome sequence

回文序列是双链DNA中的一段倒置重复序列，这段序列有个特点，它的碱基序列与其互补链之间正读和反读都相同。当该序列的双链被打开后，如果这段序列较短，有可能是限制性内切酶的识别序列，如果比较长，有可能形成发卡结构，这种结构的形成有助于DNA与特异性DNA与蛋白质的结合。

5' GGTACC 3'

3' CCATGG 5'

二、preRNA

转录起始位点 Transcription start sites (TSS)

转录起始位点是指与新生RNA链第一个核苷酸相对应的DNA链上的碱基，通常为一个嘌呤（A 或G），即5’UTR的上游第一个碱基。

5’末端的序列称为上游,而把其后面即3‘末端的序列称为下游

转录终止位点 Transcription termination sites (TTS)

转录起始位点是指新生RNA链最后一个核苷酸相对应的DNA链上的碱基。当RNA链延伸到转录终止位点时，RNA聚合酶不再形成新的磷酸二酯键，RNA-DNA杂合物分离，转录泡瓦解，DNA恢复成双链状态，而RNA聚合酶和RNA链都被从模板上释放出来。

开放阅读框 Open reading frame(ORF)

ORF 是连续的一段密码子，其含有起始密码子（通常是AUG）和终止密码子（通常是UAA，UAG或UGA）。在真核基因中，ORF跨越内含子/外显子区域，其可以在 ORF 转录后拼接在一起以产生蛋白质翻译的最终mRNA。由于读写位置不同（对应不同的起始位点），ORF 可能翻译为不同的多肽链。

基因的5'端为上游，3'端为下游。

在基因上，RNA聚合酶的转录起始位点出的碱基编号为0，向5'端方向，第一个碱基编号为-1，第二个碱基编号为-2……以此类推；同理，向3'端方向依次编号为+1、+2、+3……

好像没有-10序列的说法吧？比方说“真核生物启动子的TATA盒子通常位于转录起始点上游-25至-30区域”，就是表示“TATA盒子（一段含有TATAAA的序列）”位于转录起始位点向5'端数第25到第30个碱基的区域。

真实的或者假设的携带基因信息的DNA分子的一级结构。

基因序列中的字母只有四种，即A、C、G、T，分别代表组成DNA的四种核苷酸。腺嘌呤，胞嘧啶，鸟嘌呤，胸腺嘧啶，任意长度大于4的一串核苷酸被称做一个序列，每个字母代表一种碱基，两个碱基形成一个碱基对，碱基对的配对规律是固定的。

部分DNA序列或基因序列使用一串字母表示的真实的或者假设的携带基因信息的DNA分子的一级结构。

要分析成什么样子啊？

Molecular Weight 3452535 Daltons

316 Amino Acids

29 Strongly Basic(+) Amino Acids (K,R)

29 Strongly Acidic(-) Amino Acids (D,E)

113 Hydrophobic Amino Acids (A,I,L,F,W,V)

115 Polar Amino Acids (N,C,Q,S,T,Y)

7374 Isolectric Point

0688 Charge at PH 70

Total number of bases translated is 966

% A = 3778 [365]

% G = 1563 [151]

% T = 3054 [295]

% C = 1605 [155]

% Ambiguous = 000 [0]

% A+T = 6832 [660]

% C+G = 3168 [306]

BASE COUNT 365 a 155 c 151 g 295 t

Davis,Botstein,Roth Melting Temp C 7737

Wallace Temp C 254400

Codon usage:

gca Ala(A) 7 # cag Gln(Q) 2 # uug Leu(L) 5 # uaa Ter() 1

gcc Ala(A) 2 # --- Gln(Q) 18 # --- Leu(L) 27 # uag Ter() 0

gcg Ala(A) 2 # gaa Glu(E) 10 # aaa Lys(K) 22 # uga Ter() 5

gcu Ala(A) 8 # gag Glu(E) 2 # aag Lys(K) 4 # --- Ter() 6

--- Ala(A) 19 # --- Glu(E) 12 # --- Lys(K) 26 # aca Thr(T) 12

aga Arg(R) 0 # gga Gly(G) 6 # aug Met(M) 1 # acc Thr(T) 9

agg Arg(R) 0 # ggc Gly(G) 0 # --- Met(M) 1 # acg Thr(T) 3

cga Arg(R) 0 # ggg Gly(G) 3 # uuc Phe(F) 1 # acu Thr(T) 13

cgc Arg(R) 1 # ggu Gly(G) 4 # uuu Phe(F) 8 # --- Thr(T) 37

cgg Arg(R) 0 # --- Gly(G) 13 # --- Phe(F) 9 # ugg Trp(W) 0

cgu Arg(R) 2 # cac His(H) 0 # cca Pro(P) 4 # --- Trp(W) 0

--- Arg(R) 3 # cau His(H) 5 # ccc Pro(P) 3 # uac Tyr(Y) 0

aac Asn(N) 5 # --- His(H) 5 # ccg Pro(P) 3 # uau Tyr(Y) 8

aau Asn(N) 20 # aua Ile(I) 5 # ccu Pro(P) 1 # --- Tyr(Y) 8

--- Asn(N) 25 # auc Ile(I) 5 # --- Pro(P) 11 # gua Val(V) 7

gac Asp(D) 2 # auu Ile(I) 26 # agc Ser(S) 3 # guc Val(V) 1

gau Asp(D) 15 # --- Ile(I) 36 # agu Ser(S) 12 # gug Val(V) 2

--- Asp(D) 17 # cua Leu(L) 2 # uca Ser(S) 2 # guu Val(V) 12

ugc Cys(C) 0 # cuc Leu(L) 0 # ucc Ser(S) 1 # --- Val(V) 22

ugu Cys(C) 2 # cug Leu(L) 1 # ucg Ser(S) 2 # nnn (X) 0

--- Cys(C) 2 # cuu Leu(L) 5 # ucu Ser(S) 5 # TOTAL 322

caa Gln(Q) 16 # uua Leu(L) 14 # --- Ser(S) 25 #

_______________________________________________________________________________

Created: Wednesday, May 18, 2011 05:12 PM

人类基因组：指人体DNA分子所携带的全部遗传信息。由24条双链的DNA分子组成（包括1~22号染色体DNA与X、Y染色体DNA），上边有30亿个碱基对，30多亿个碱基对构成的人类基因组精确测序，发现所有人类基因并搞清其在染色体上的位置，破译人类全部遗传信息。30亿个碱基对，太庞大了，无法精确的告知你序列是什么样的。但可以告诉你：人类基因组计划： 1、概念：是指分析测定人类基因组的核苷酸序列。 2、主要内容：绘制人类基因组的四张图，即遗传图、物理图、序列图和转录图。绘制这四张图好比是建立一个“人体地图”，沿着地图中一个个路标，如“遗传标记”、“物理标记”等，可以一步步地找到每一个基因，搞清楚每一个基因的核苷酸序列。 3、进展：2000年6月26日，6国科学家向世界宣布：“人类基因组草图”的绘制工作已经全部完成。预计到2003年，“人类基因组精图”的绘制工作也将全部完成。 4、意义：（1）对于各种疾病，尤其是各种遗传病的诊断、治疗具有划时代的意义；（有利于疾病的诊断和治疗。）（2）对于进一步了解基因表达的调控机制、细胞的生长、分化和个体发育的机制，以及生物的进化等也具有重要的意义；（有利于研究基因的表达和调控机制）；（有利于研究生物的进化。）（3）将推动生物高新技术的发展，并产生巨大的经济效益。（有利于培育优良的动植物品种）。另外，美国奎格�6�1文特研究所和多伦多儿童医院以及加州大学的研究者日前公布了奎格�6�1文特本人的基因组序列，这是世界上第一次公布单个个体二倍体的基因组序列，初步分析报告发表在最新一期的《PLOS生物学》上。