从群体基因组数据推断祖先

从群体基因组数据推断祖先,第1张

最近看了一篇综述，粗略翻译一下

文献：

Padhukasahasram, B (2014) Inferring ancestry from population genomic data and its applications Frontiers in genetics, 5, 204

祖先推断是一个经常遇到的问题，有许多应用，如法医分析，遗传关联研究，和个人基因组学。祖先推断的主要目标是根据我们对自然种群的认识来确定一个种群的起源。由于物种的祖先或生物体的取样位置都可能不准确，因此使用遗传标记可以促进对个体祖先起源的准确和可靠推断。在更高的层次上，祖先推断有两种不同的模式:全球祖先推断(试图计算人口贡献的全基因组平均)和本地祖先推断(试图识别基因组片段的区域祖先)。在这篇简短的综述中，我描述了目前从种群基因组数据集中两种类型的祖先推断可用的许多方法。目前可用的两种类型的血统推断从人口基因组数据集。我首先描述这些推理方法的基本思想以及它们之间的关系。然后，我描述了血统推断被证明是有用的实际应用。

在种群基因组分析中，常常需要将一个生物体样本划分为不同的种群组。这可以帮助我们了解自然种群的进化关系和迁徙历史，并有助于确定个体的种群起源。由于生物体的取样位置或人类的自我报告祖先的信息可能不够充分，因此利用遗传标记可以通过 利用群体间等位基因频率的差异 促进准确和可靠的祖先推断。

目前有两种不同的遗传推断模式: 全局遗传估计global ancestry (GA) estimation 和 局部遗传估计 local ancestry (LA) estimation 。GA遗传推理估计整个基因组中不同种群平均贡献的祖先比例。这种方法已被应用于研究人类以及许多其他物种的种群结构。相比之下，在LA推理中，我们将个体基因组中的每条染色体解释为来自不同祖先种群的片段拼接，目的是找到每个位置的祖先种群的起源。LA推理方法主要用于研究最近混合人口，如非洲裔美国人和拉丁裔美国人。

遗传推理的主要目标是估计整个基因组中每个种群平均贡献的祖先的比例。这种推断有两大类可用的方法: 基于模型的方法 和 非参数的方法 。

基于模型的遗传推理方法试图估计单个祖先系数假设特定的统计模型。例如，STRUCTURE和ADMIXTURE软件都利用遗传比例和群体等位基因频率假设位点间的Hardy-Weinberg平衡和连锁平衡来建模观察到的基因型的概率。STRUCTURE是基于贝叶斯方法，使用马尔可夫链蒙特卡罗算法 Markov Chain Monte Carlo algorithm获得样本后验分布。后来该方法扩展为允许混合连锁不平衡(LD)。InStruct是STRUCTURE的延伸，可以共同推断自花受精生物的种群结构和近交系率。该方法放宽了cluster内的Hardy-Weinberg平衡假设。fastSTRUCTURE使用高效采用变分贝叶斯框架的算法来推断STRUCTURE 模型的后验。在这个框架下，后验推理被提出为一个优化问题。ADMIXTURE采用与STRUCTURE相同的模型，但使用了涉及高维优化算法的最大似然估计过程。特别是，这是通过一个块松弛方案交替更新血统系数矩阵和种群等位基因频率矩阵。采用一种新的拟牛顿quasi-Newton方法加速收敛。ADMIXTURE比STRUCTURE快一个数量级，并产生类似精度的估计。FRAPPE程序也遵循与STRUCTURE相同的似然模型，但使用期望最大化算法通过最大似然估计参数。执行严格的收敛准则使这个程序在计算上很麻烦。因此，在实际应用中，采用了松弛的收敛准则，使得计算结果的精度略低于ADMIXTURE。最近，Frichot等人在2014年描述了利用稀疏非负矩阵分解(sNMF)和最小二乘优化来产生祖先比例估计数的祖先推断的快速计算算法。特别是，这些算法产生的祖先估计与ADMIXTURE一样准确，但在速度方面要快约10-30倍。空间祖先分析(spatial ancestry analysis, SPA)是最近发展起来的一种替代方法，它利用显性的概率模型研究空间中等位基因频率的变化，并利用这些模型将个体定位到二维或三维空间中。

非参数方法利用多变量分析技术，如聚类分析和主成分分析(PCA)来推断数据中的结构。聚类分析的主要目标是直接找到代表数据中不同群体的子集。其他技术如PCA、多维标度和主坐标分析寻求在低维空间构建投影，以捕获标记基因型的大部分变异。这种方法推断出的坐标往往与个人取样所处的地理位置高度相关。EIGENSTRAT 是一个著名的实现PCA的程序。

诸如STRUCTURE和ADMIXTURE等方法的问题之一是，它们只考虑单个标记，而不考虑它们的联合变异模式。在没有重组的情况下，同一染色体上的标记倾向于一起遗传。对于接近的标记，在种群水平上，这导致LD，即反映共同家谱的非随机关联，并推翻了独立假设。对于密集的多态数据集，比如那些从测序中获得的数据集，基于单倍型的分析有潜力利用这些信息，并提供改进的检测群体子结构的能力。ChromoPainter和fineSTRUCTURE是最近开发的程序，目的是利用单倍型结构，分别用于高质量的PCA和种群结构推断。与PCA和ADMIXTURE等程序相比，LD的建模可以实现更准确的结构推断，但运行时间的成本要高得多。

当两个或更多不同的人口在一段时间内混合(即混合人口，如非洲裔美国人和拉丁裔美国人)时，血统推断就会变得更加复杂。GA算法推理方法将这些种群中的每个个体分配到一个以上的组。混合基因组是由来自不同祖先群体的片段拼接而成的，估计祖先的比例，特别是在这种情况下，在每个基因组位置寻找区域祖先是一个特别具有挑战性的问题。到目前为止，大多数已开发的方法都采用生成方法来解决这个问题，并尝试使用隐马尔可夫模型(HMM)或其扩展来将显式概率模型与数据拟合。LA推断的生成方法首先尝试建模等位基因和祖先的联合依赖性，然后使用“贝叶斯”规则估计祖先对SNP等位基因构型的依赖性。

早期基于STRUCTURE框架的LA推理方法使用了隐马尔可夫模型，没有明确地建模背景LD。这种方法的一个局限性是，它们没有充分利用单倍型中可用的信息，而单倍型可能有助于区分密切相关的种群。相比之下，其他可以显式建模LD的方法是计算密集的，并且一次只能考虑两个祖先种群。local ancestry in admixed populations (LAMP，混合种群中的本地祖先)是一种最新的估计最近混合种群中LA的算法，它在相邻SNPs的滑动窗口上操作，并基于聚类算法分配祖先。结果显示，它比STRUCTURE(大约104倍)和SABER(大约200倍)更准确，速度也快得多。其中一个基本假设是窗口内不存在重组。WINPOP是对原始LAMP框架的修改，该框架使用了重组事件的改进模型和高效的动态规划算法，以改进祖先种群密切相关情况下的LA推断。PCAdmix 是LA推理的一种启发式方法。该方法首先将基因组划分为10-50 kb宽的窗口，并利用PCA估计特定参考面板群体的起源概率。然后，这些概率被用作HMM中的发射概率，通过维特比解码来推断祖先。SupportMix是另一种最近开发的用于LA推理的方法，它在滑动窗口HMM框架中训练支持向量机。ASPCA(祖系特异性主成分分析)是一种新方法，用于推断混合居群的单倍型在大陆内的起源，是最近在重建加勒比居群历史的背景下发展起来的。它涉及到首先推断LA，然后应用PCA只对特定祖先的基因组片段。

LA推断的另一种方法，RFMix是最近开发的，它对这个问题采取了一种鉴别方法。这些方法将未观察到的变量(即祖先)的依赖性直接建模为观察变量(即等位基因)的函数。RFMix利用了基于参考面板上训练的随机森林的条件随机字段。基于RFMix的LA推断被证明比许多竞争方法更快更准确，比如LAMP(快了33倍)和Support Mix(快了17倍)。EILA(本地祖先的有效推断)是另一种最近开发的统计方法，它使用融合分位数回归和k-means分类器来执行LA推断。该方法不假设标记之间的连锁平衡，并建议使用所有基因型SNPs以获得更高的准确性。EILA已经被证明比LAMP和HAPMIX等程序更准确，当种群间的祖先距离大或中等，并且在速度方面具有可比性。

　想必有很多的孩子在家里来了亲戚时不知道要怎样称呼，在汉语中，对于亲属的称谓有很多，需要我们一一细分，但是在英语口语中和国内有较大的差距，我们在日常口语中千万不要叫错了。

　　immediate family

　　直系亲属

　　Immediate family这个概念在各种法律中会有不同的定义，但一般来说，英文中的直系亲属包括父母、兄弟姐妹(siblings)、配偶(spouses)和子女。

　　Close relative也可表达同样的意思。

　　extended family

　　稍远的亲属

　　Grandparents

　　英美人民称呼自己的祖父母时有很多种亲昵叫法。奶奶、外婆可以叫作granny、nana、grandma;爷爷、外公可以叫作grandad、grandpa等。

　　但对他人提起自己的祖父母时，一般就说grandfather和grandmother。

　　如果你想分清楚到底是爸爸那边还是妈妈那边的祖父母，就可以用“on side”的表达，例句：

　　My grandmother on my mom's side is Korean

　　我外婆是韩国人。

　　你还可以用maternal grandparent来指代外婆外公，爷爷奶奶则称为paternal grandparent。这种说法比较正式。例句：

　　The patient says that his maternal grandfather died of brain cancer

　　病人说他的外祖父死于脑癌。

　　曾祖父母是great-grandparents。所以great-uncle就是舅老爷、姑老爷，great-aunt就是伯祖母、姑姥姥。

　　你可以继续在前面加great-，表示再上一辈的祖父母，例句：

　　My great-great-great-grandfather fought in the Civil War

　　我的曾曾曾爷爷打过内战。不过，你可以直接叫他们ancestors，祖辈。

　　同理，你也可以有曾孙子、曾孙女(great-grandchildren)，他们都是你的descendants(后代)，或offsprings(子女、后代)。

　　► Aunts and uncles

　　叔伯姑姑是paternal aunt/uncle，姨妈舅舅就是maternal aunt/uncle。

　　他们都是你的aunt/uncle by blood，有血缘关系的。

　　他们的配偶则是aunt/uncle by marriage。

　　和中国孩子管爸妈的朋友叫叔叔阿姨一样，有些外国家庭里，孩子也会叫爸妈的好友aunt或uncle。

　　► Cousins

　　当人们说到cousins这个词时，通常指的是first cousins，即堂(表)兄弟姐妹。

　　其他的远亲(distant relatives)也可称作cousins。

　　Second cousin，第二代堂(表)兄妹，是你父母的堂(表)兄弟姐妹的孩子。

　　Third cousin，第三代堂(表)兄妹，就是你祖父母的堂(表)兄弟姐妹的孩子。

　　你的亲兄弟姐妹(siblings)的子女叫做nephew(侄子、外甥)和niece(侄女、外甥女)。

　　接下来，烧脑的部分来了。

　　如果有一个人跳出来说，我是你的second cousin once removed，你知道你们是什么关系吗

　　Removed其实相当于中文里的辈分，差一个辈分，叫做once removed，差两个辈分就是twice removed。

　　in-laws

　　姻亲

　　In-law的用法通常适用于配偶的直系亲属，比如mother-in-law(岳母;婆婆)、brother-in-law(姐夫;小叔;大舅等)，如果描述更远一点的配偶的亲戚，人们就会更清楚地解释其中关系，而不用in-law，如，

　　My wife's grandmother passed away last week我妻子的奶奶上周过世了。

　　自己的女婿、儿媳也可以叫son-in-law和daughter-in-law。

　　other relations

　　其他亲属关系

　　离婚(divorce)、再婚(remarriage)、领养(adoption)会产生的一些更复杂的家庭关系，比如：

　　step-father/mother 继父继母

　　继父继母的孩子叫做step-brother或step-sister。

　　你的亲生父亲/母亲和继母/继父共同生育的孩子则叫做half-brother或half-sister。

　　养父养母称为adoptive parents，而被领养的孩子管自己的亲生父母叫biological parents或birth parents。

　　亲属关系相关词汇

　　kinfolk, kin 亲属

　　kinship 亲戚关系

　　next of kin 近亲

　　generation 代

　　branch 支，系

　　tribe 部族，部落

　　clan 氏族

　　race, breed 种族

　　lineage 宗族，世系

　　stock 门第，血统

　　of noble birth 贵族出身

　　of humble birth 平民出身

　　origin 出身

　　ancestry 祖先，先辈

　　ancestors, forebears, forefathers 祖先

　　extraction 家世

　　offspring 后代，后辈

　　descendants 后代，晚辈

　　progeny 后裔

　　succession 继承

　　consanguinity, blood relationship 血缘关系

　　kinsmen by blood 血亲

　　affinity 姻亲关系，嫡戚关系

　　family tree 家谱

　　上述就是英语口语中关于亲属称谓的整理，这样大家就不必要担心喊错人后尴尬了，也能够为大家的英语口语提升带来一定的帮助。

在防止贵重物品被手指撬开时，您可以选择在您的壁橱中藏身——或者您可以利用世界上一些最安全的保险库、保险箱和其他堡垒。

1诺克斯堡//肯塔基州诺克斯堡

计划闯入诺克斯堡首先，爬上周围的四道栅栏——其中两道是电动的——然后偷偷溜过围在外围的武装哨兵。一定要避开摄像机，但不要浪费时间试图炸穿花岗岩墙：它们有 4 英尺厚，由 750 吨钢筋固定在一起。如果你通过里面的武装警卫，再加上锁着的迷宫，你可能会被 22 吨重的金库门拦住。不要绝望。保险库可以打开，但前提是你找到所有知道组合的一小部分的工作人员（你需要他们所有人，因为没有人知道整个事情。）一旦你进入保险库，你会必须闯入藏在里面的较小的金库，然后你就可以开始拿走那里储存的5000吨金条。离开时要小心：30，

2斯瓦尔巴全球种子库//挪威斯匹次卑尔根

如果世界末日很快发生，任何让世界农作物恢复的希望都被埋在北欧山下 390 英尺的地方。斯匹次卑尔根岛上的斯瓦尔巴全球种子库目前拥有世界上超过 500,000 种植物。这个避难所位于北极以南 620 英里处，有数百英里的海洋和几千只北极熊保护着它。它是如此之深，它可以抵抗核浩劫，更不用说严重的地震了。它也位于海拔 430 英尺处，不受任何可能的海平面上升的影响。三个种子库位于四扇沉重的钢门后面。只要钥匙没有藏在门垫下，我们的种子就应该不会受到世界末日的影响。

3夏延山//科罗拉多

一名司机进入夏延山的隧道。

凯文马洛尼/盖蒂社

夏延山重新定义了“工作保障”这个词。员工在两扇 25 吨重的门后工作，可承受 30 兆吨的爆炸。从这个角度来看，胖子——投在长崎的炸弹——必须爆炸 1429 次才能打开入口。那里的办公室被埋在山上的花岗岩中 2000 英尺深，以至于必须在里面抽空气。然而，那种空气是世界上最干净的。它由最先进的化学、生物和核过滤器系统处理。难怪夏安在冷战期间主办了美国导弹预警中心和NORAD 。

4铁山//宾夕法尼亚

爱因斯坦的图像是铁山的众多文化瑰宝之一。

兰伯特/基斯通/盖蒂社

93号航班烧焦的残骸是什么，阿尔伯特爱因斯坦伸出舌头的原始照片和托马斯爱迪生电灯泡的专利有什么共同点？它们都存放在铁山下。在地下 200 英尺的地方，这座退役的石灰石矿拥有价值 170 万平方英尺的拱顶。美国是最大的租户，95% 的金库所有者的身份都是保密的。我们确实知道华纳兄弟、史密森尼学会和 Corbis 都在那里设有保险库。数以千计的历史大师录音、照片底片和原始胶卷都住在这里。Iron Mountain 也是 Room 48 的所在地，这是一个支持美国一些最大公司的数据中心。两波武装警卫保护着入口，据说他们对客人进行了彻底的检查，即使是TSA也会感到尴尬。

5纽约联邦储备银行//纽约，纽约

纽约联邦储备银行。

罗伊罗克林/盖蒂社

远离华尔街的喧嚣，世界上 25% 的黄金都存在。在纽约联邦储备银行，价值超过 2700 亿美元的金条藏在一个下沉的三层地堡中。然而，大部分黄金不是美国的。外国拥有 98% 的股份。但那是因为他们信任美联储的金库。毕竟，它位于地下 80 英尺处，四周被坚固的岩石包围，并由一支专业的射手队进行勘测。最重要的是，540,000 根金条被锁在一扇 90 吨重的钢门后面。

6花岗岩山//犹他州

自 1965 年以来，花岗岩山一直保护着摩门教的家谱图书馆。该图书馆位于山下 600 英尺处，拥有 35 亿张缩微胶卷图像——从人口普查记录到移民文件。这些文件是通过与来自 100 多个国家的档案馆、图书馆和教堂的协议获得的。那里的档案管理员复制旧文件并将其数字化，这些文件已在familysearchcom和ancestrycom等网站上公开。该设施自然受气候控制，但也受到武装警卫和 14 吨重的抗核爆炸门的保护。很有可能，在里面的某个地方，有一张写着你名字的唱片。

7 TEIKOKU BANK // 日本广岛

当Enola Gay把小男孩扔到广岛时，这座城市和它的人民都被消灭了。但是在市中心，离零地只有一个足球场，帝国银行的金库完好无损。外部是油炸的，但内部是原始的。制造保险箱的公司 Mosler 将这一事件视为一个巨大的营销机会。在接下来的十年里，它利用这场悲剧吹嘘其产品的质量。安全的？当然。委婉？没那么多。

8英格兰银行金库//英国伦敦

它看起来像印第安纳琼斯的东西：英国最大的金库——在世界上仅次于纽约的美联储——储存了 46,005,152 吨黄金。防爆门通过复杂的语音识别系统解锁，并辅以多个三英尺长的钥匙。（上次我查了一下，Lowes 不能复制它们。）银行不会说门有多重或金库埋得有多深，但我们确实知道它的占地面积比伦敦的 42 塔还要多， 47层建筑。

9 BAHNHOF和维基解密//瑞典斯德哥尔摩

美国国务院可能不太喜欢这个安全屋。这个古老的核掩体埋在斯德哥尔摩街道下 100 英尺处，在数据中心中臭名昭著。这是因为该设施由瑞典互联网提供商 Bahnhof 拥有，以保护维基解密的服务器而闻名。朱利安·阿桑奇最珍贵的电脑藏在这个数据掩体中。维基解密藏在一扇 15 英尺高的钢门后面，由可以运行数周的备用发电机驱动，只要它在这里，它就会保持呼吸。

从群体基因组数据推断祖先

相关阅读

栏目

最新发布

热门标签