从群体基因组数据推断祖先

栏目:资讯发布:2023-10-24浏览:2收藏

从群体基因组数据推断祖先,第1张

最近看了一篇综述,粗略翻译一下

文献:

Padhukasahasram, B (2014) Inferring ancestry from population genomic data and its applications Frontiers in genetics, 5, 204

祖先推断是一个经常遇到的问题,有许多应用,如法医分析,遗传关联研究,和个人基因组学。祖先推断的主要目标是根据我们对自然种群的认识来确定一个种群的起源。由于物种的祖先或生物体的取样位置都可能不准确,因此使用遗传标记可以促进对个体祖先起源的准确和可靠推断。在更高的层次上,祖先推断有两种不同的模式:全球祖先推断(试图计算人口贡献的全基因组平均)和本地祖先推断(试图识别基因组片段的区域祖先)。在这篇简短的综述中,我描述了目前从种群基因组数据集中两种类型的祖先推断可用的许多方法。目前可用的两种类型的血统推断从人口基因组数据集。我首先描述这些推理方法的基本思想以及它们之间的关系。然后,我描述了血统推断被证明是有用的实际应用。

在种群基因组分析中,常常需要将一个生物体样本划分为不同的种群组。这可以帮助我们了解自然种群的进化关系和迁徙历史,并有助于确定个体的种群起源。由于生物体的取样位置或人类的自我报告祖先的信息可能不够充分,因此利用遗传标记可以通过 利用群体间等位基因频率的差异 促进准确和可靠的祖先推断。

目前有两种不同的遗传推断模式: 全局遗传估计global ancestry (GA) estimation 局部遗传估计 local ancestry (LA) estimation 。GA遗传推理估计整个基因组中不同种群平均贡献的祖先比例。这种方法已被应用于研究人类以及许多其他物种的种群结构。相比之下,在LA推理中,我们将个体基因组中的每条染色体解释为来自不同祖先种群的片段拼接,目的是找到每个位置的祖先种群的起源。LA推理方法主要用于研究最近混合人口,如非洲裔美国人和拉丁裔美国人。

遗传推理的主要目标是估计整个基因组中每个种群平均贡献的祖先的比例。这种推断有两大类可用的方法: 基于模型的方法 非参数的方法

基于模型的遗传推理方法试图估计单个祖先系数假设特定的统计模型。例如,STRUCTURE和ADMIXTURE软件都利用遗传比例和群体等位基因频率假设位点间的Hardy-Weinberg平衡和连锁平衡来建模观察到的基因型的概率。STRUCTURE是基于贝叶斯方法,使用马尔可夫链蒙特卡罗算法 Markov Chain Monte Carlo algorithm获得样本后验分布。后来该方法扩展为允许混合连锁不平衡(LD)。InStruct是STRUCTURE的延伸,可以共同推断自花受精生物的种群结构和近交系率。该方法放宽了cluster内的Hardy-Weinberg平衡假设。fastSTRUCTURE使用高效采用变分贝叶斯框架的算法来推断STRUCTURE 模型的后验。在这个框架下,后验推理被提出为一个优化问题。ADMIXTURE采用与STRUCTURE相同的模型,但使用了涉及高维优化算法的最大似然估计过程。特别是,这是通过一个块松弛方案交替更新血统系数矩阵和种群等位基因频率矩阵。采用一种新的拟牛顿quasi-Newton方法加速收敛。ADMIXTURE比STRUCTURE快一个数量级,并产生类似精度的估计。FRAPPE程序也遵循与STRUCTURE相同的似然模型,但使用期望最大化算法通过最大似然估计参数。执行严格的收敛准则使这个程序在计算上很麻烦。因此,在实际应用中,采用了松弛的收敛准则,使得计算结果的精度略低于ADMIXTURE。最近,Frichot等人在2014年描述了利用稀疏非负矩阵分解(sNMF)和最小二乘优化来产生祖先比例估计数的祖先推断的快速计算算法。特别是,这些算法产生的祖先估计与ADMIXTURE一样准确,但在速度方面要快约10-30倍。空间祖先分析(spatial ancestry analysis, SPA)是最近发展起来的一种替代方法,它利用显性的概率模型研究空间中等位基因频率的变化,并利用这些模型将个体定位到二维或三维空间中。

非参数方法利用多变量分析技术,如聚类分析和主成分分析(PCA)来推断数据中的结构。聚类分析的主要目标是直接找到代表数据中不同群体的子集。其他技术如PCA、多维标度和主坐标分析寻求在低维空间构建投影,以捕获标记基因型的大部分变异。这种方法推断出的坐标往往与个人取样所处的地理位置高度相关。EIGENSTRAT 是一个著名的实现PCA的程序。

诸如STRUCTURE和ADMIXTURE等方法的问题之一是,它们只考虑单个标记,而不考虑它们的联合变异模式。在没有重组的情况下,同一染色体上的标记倾向于一起遗传。对于接近的标记,在种群水平上,这导致LD,即反映共同家谱的非随机关联,并推翻了独立假设。对于密集的多态数据集,比如那些从测序中获得的数据集,基于单倍型的分析有潜力利用这些信息,并提供改进的检测群体子结构的能力。ChromoPainter和fineSTRUCTURE是最近开发的程序,目的是利用单倍型结构,分别用于高质量的PCA和种群结构推断。与PCA和ADMIXTURE等程序相比,LD的建模可以实现更准确的结构推断,但运行时间的成本要高得多。

当两个或更多不同的人口在一段时间内混合(即混合人口,如非洲裔美国人和拉丁裔美国人)时,血统推断就会变得更加复杂。GA算法推理方法将这些种群中的每个个体分配到一个以上的组。混合基因组是由来自不同祖先群体的片段拼接而成的,估计祖先的比例,特别是在这种情况下,在每个基因组位置寻找区域祖先是一个特别具有挑战性的问题。到目前为止,大多数已开发的方法都采用生成方法来解决这个问题,并尝试使用隐马尔可夫模型(HMM)或其扩展来将显式概率模型与数据拟合。LA推断的生成方法首先尝试建模等位基因和祖先的联合依赖性,然后使用“贝叶斯”规则估计祖先对SNP等位基因构型的依赖性。

早期基于STRUCTURE框架的LA推理方法使用了隐马尔可夫模型,没有明确地建模背景LD。这种方法的一个局限性是,它们没有充分利用单倍型中可用的信息,而单倍型可能有助于区分密切相关的种群。相比之下,其他可以显式建模LD的方法是计算密集的,并且一次只能考虑两个祖先种群。local ancestry in admixed populations (LAMP,混合种群中的本地祖先)是一种最新的估计最近混合种群中LA的算法,它在相邻SNPs的滑动窗口上操作,并基于聚类算法分配祖先。结果显示,它比STRUCTURE(大约104倍)和SABER(大约200倍)更准确,速度也快得多。其中一个基本假设是窗口内不存在重组。WINPOP是对原始LAMP框架的修改,该框架使用了重组事件的改进模型和高效的动态规划算法,以改进祖先种群密切相关情况下的LA推断。PCAdmix 是LA推理的一种启发式方法。该方法首先将基因组划分为10-50 kb宽的窗口,并利用PCA估计特定参考面板群体的起源概率。然后,这些概率被用作HMM中的发射概率,通过维特比解码来推断祖先。SupportMix是另一种最近开发的用于LA推理的方法,它在滑动窗口HMM框架中训练支持向量机。ASPCA(祖系特异性主成分分析)是一种新方法,用于推断混合居群的单倍型在大陆内的起源,是最近在重建加勒比居群历史的背景下发展起来的。它涉及到首先推断LA,然后应用PCA只对特定祖先的基因组片段。

LA推断的另一种方法,RFMix是最近开发的,它对这个问题采取了一种鉴别方法。这些方法将未观察到的变量(即祖先)的依赖性直接建模为观察变量(即等位基因)的函数。RFMix利用了基于参考面板上训练的随机森林的条件随机字段。基于RFMix的LA推断被证明比许多竞争方法更快更准确,比如LAMP(快了33倍)和Support Mix(快了17倍)。EILA(本地祖先的有效推断)是另一种最近开发的统计方法,它使用融合分位数回归和k-means分类器来执行LA推断。该方法不假设标记之间的连锁平衡,并建议使用所有基因型SNPs以获得更高的准确性。EILA已经被证明比LAMP和HAPMIX等程序更准确,当种群间的祖先距离大或中等,并且在速度方面具有可比性。

(1)2 

(2)AaX B X b     AaX B Y   

(3)1/3    1/2

家谱的主要内容:姓氏源流和世系表。

一、姓氏源流

中国姓氏在经过历史不断演变,如:战乱,迁移,改朝换代,以及避讳改姓、避难改姓、复姓改为单姓等,姓氏变得更为复杂,其真正的出处、源头就更需要详细考证了。一些史学专家认为,历史上的王朝更替、社会动荡导致了家谱的断裂残缺,很多族谱都由后人凭想象臆造。

封建时代,许多姓氏为了抬高自己的门第和郡望,习惯于与名人扯上关系,或硬追溯到某皇帝作自己的祖先,这影响了血缘的纯正性和确实性。重视传统的中华民族,有不少家族在重修宗谱,由于南北各地的语言、风俗、长相等均不同,世系联系在一起,其纸谱真实性值得推敲。

二、世系表

作为家谱中最重要的内容,“世系表”,简而言之,就是说明一个家族成员,如:父子、兄弟间的相互关系,写清楚祖先后代每一个家族成员名字的图表。它有四种基本的记述格式:欧式、苏式、宝塔式和牒记式。

(1)欧式:又称横行体,是北宋文学家欧阳修创立的。欧式的特点是:世代分格,由右向左横行,五世一表,用起来很方便。欧式中,每个世代人名左侧都有一段生平记述,介绍该人的字、号、功名、官爵、生辰年月日、配偶、葬地、功绩等。

(2)苏式:又称垂珠体,是北宋文学家苏洵创立的。苏式世系表的特点是:世代直行下垂,世代间无横线连接,全部用竖线串连,图表格式也是由右向左排列的,主要是强调宗法关系。

(3)宝塔式:顾名思义,就是将世代人名象宝塔一样,由上向下排列。宝塔式采用横竖线连接法,竖线永远处在横线的中间,这对人多的大家族来说,因人名不可能排在同一页纸上,兄弟之间长幼关系不清,会为写谱、看谱带来很多不便。

(4)牒记式:不用横竖线连接世代人名间的关系,而是纯用文字来表述这种关系。每个人名下都有一个相关的简介,如:字、号、功名、官爵、生辰年月日、葬地、功绩等。牒记式的世系形式固定,次序分明,比较节约纸张。

扩展资料

家谱是一个家族的历史记载,通过家谱,能够了解当时的历史面貌、时代精神、社会风尚,了解在那个历史背景下人们的生产、生活情况。相传它是由正史中的帝王本纪及王侯列传、年表等演变而来。家谱是和正史、方志一样重要的历史典籍,是史学的重要组成部分之一。

中国的家谱一般都有家规族训,对于规范人生和教育子弟有着积极的意义。家谱,亦称族谱、宗谱、家乘、通谱、统谱、世谱、支谱、房谱等等,名称各异,其内涵是同一的,只是外延有所区别而已,如今一般统称家谱或族谱。家谱是系统记述某一同宗共祖的血缘集团世系人物或兼及其他方面情况的历史图籍。而姓氏是“某一同宗共祖血缘集团”的标识符号,家谱、族谱就是记录某一姓氏家族成员间的血缘关系的图册。

-家谱 (人文资料)

D

首先,色盲基因与该酶基因是X连锁关系,且均为隐形遗传

然后,分析基因型设色盲基因Aa,酶基因Bb

则2Ab,aB1aB,注意连锁关系

则4Ab,aB,且3完全正常

则理论上,不发生交换重组时,男孩必须患病,并且只患一种病

如图所示,7,9 与理论不符,所以7,9发生交换

家谱一般分两部分,悬挂中堂的谱幕,谱幕只记录去世的族人,按家族大小可分三年、五年、十年一续不等。

第二部分是谱书:

谱书同谱幕不同,所有家族成员,无论是生是死、尽具所知,当祥细入册,包括先人照片、先进业绩、妻子姓名,娘家住址、姑太太出嫁哪里,姑爷姓名、外甥姓名以及在世族人的祥细情况当全部入册!

扩展资料:

家谱作用:

家谱是一个家族的历史记载,通过家谱,能够了解当时的历史面貌、时代精神、社会风尚,了解在那个历史背景下人们的生产、生活情况。

相传它是由正史中的帝王本纪及王侯列传、年表等演变而来。家谱是和正史、方志一样重要的历史典籍,是史学的重要组成部分之一。

家谱是一个巨大的资料宝库,可供从事社会学、历史学、考古学、经济学、民俗学、人口学、民族学、文学、政治学、宗教学、法学、姓氏学的研究人员从中查询资料,寻找依据,进行研究。

家谱的作用主要有:

1、宗法思想研究资料。

家谱和宗法的关系从一开始就密不可分。宗法制度是封建王朝维护其统治的重要基础之一,而家谱的族规、族约、家法、乡约等,正是加强宗法制度的有力工具。

2、家庭道德研究资料。

族规、家规中保留了许多对我们今天极为有益的东西,如孝父母、和夫妇、勉讳书、尚节俭、戒赌博、戒*秽、戒懒惰、戒奢侈等,对我们建设现代家庭道德和精神文明都有很好看借鉴意义。

3、家族制度研究资料。

家族制度是利用血缘关系统治族人的社会制度。在许多家谱中都有家族制度的极为详细的资料,如家族的组织系统、家族的财产管理、家族的赈济方法等,为我们研究家族在古代社会中的地位、作用、组织形式、管理方法等提供了丰富的资料。

4、经济史资料。

家谱中保存有相当数量的经济史资料,这些资料包括家族的集体田产如祠田、坟田、庄田、山林等的数量、形成、经营、管理、收支情况等。有的家谱还记录了家庭成员经商、贸易的事迹。这都为我们今天研究古代经济史提供了很好的素材。

5、人口问题资料。

家谱的中心部分是家族人口的世系传承,在家谱的“房派图”、“支派分布图”、“迁徙图”、“先世考”、“世系图”以及家谱的一些序跋中,记录了家族人口的数量、迁徙、分布、婚姻状况等资料,可提供人口学研究者使用。

6、历史人物传记。

家谱是世系的记录,许多家谱中既有简单的世系,又有十分详细的传记、行状、墓志、年谱等,对研究历史人物及其家世大有帮助。

7、民族史资料。

有的家谱记载历史上少数民族情况甚详,更有些少数民族家谱,它们是研究少数民族史不可多得的资料。如清代蒲慎斋纂修的《泉州蒲氏族谱》是回族家谱,记述了当地回族的一些情况;而辽宁《庄河金氏家谱》则是满族家谱,金氏是康熙皇帝四辅政大臣之一鳌拜的后裔。

8、地方史志资料。

家谱是地方文献的重要组成部分,通常方志中所包含的内容如选举、职官、人物、户籍、祠宇、碑记、艺文等,在家谱中也是重要内容。

9、教育史资料。

家谱中一些重要的章节载录了许我教育史资料,如在族规、家法、仕宦录、科甲记、教育志、族墅、传记等就载有宗族教育、学校、科举、劝学措施、教育方法的内容。

10、民俗学资料。

家谱还是一个民俗学资料库,一些家谱在家礼和人物传记里记录了许多民俗内容,尤其是在家礼中的婚礼、葬礼、祭礼等中,本地的风土人情、本族的礼仪风俗都有相当的体现。另外,与人们日常生活密切相关的物质民俗、岁时习俗、社会习俗、精神习俗等在各地家谱中都有记载。

11、宗教史资料。

有些家谱是信仰宗教者的家世记录。在这些家谱中,他们对本家族所信仰的宗教一般都给以说明,同时表达他们的宗教观。还有的对本族人的宗教活动、宗教礼仪和习俗详细记述。

12、华侨史资料。

中国沿海地区一些省份的家谱涉及族人出国谋生的历史,包括出走原因、人数、时间、侨居地区分布、职业、所在地生产、生活情况及与家乡、家族的经济、文化、政治各方面联系,这为我们进行华侨史研究提供了素材。

13、重大历史事件资料。

中国历史上一些重大历史事件,都不同程度地记录在家谱中,虽然这些记录并不完整系统,但却十分具体,也是研究者获取资料的一个途径。

除以上所述外,家谱还能提供有关古代妇女、古代伦理道德、遗传学、人才学等多方面的史料。由此可见,家谱作为史书之一,其作用是相当突出的。

家谱是一个家族的发展史。一个家族要发展壮大,除需要雄厚的物质条件外,还需要足以“强宗固族”的精神条件,而良好的家风的形成,正是这种精神条件的基础和内容之一。家谱中所保存的家规、家训以及治有格言等,从一开始就以积极、进取的人生价值和社会价值态度来讨论家庭环境和家庭氛围的建设。

-家谱

从群体基因组数据推断祖先

最近看了一篇综述,粗略翻译一下 文献: Padhukasahasram, B (2014) Inferring ancestry from population genomic d...
点击下载
热门文章
    确认删除?
    回到顶部