标王 热搜： 浙江盐酸白藜芦醇氨基技术吡格列酮吡啶中间体制药设备骨科原料药前景广阔武汉中成药“避风港”或步其后尘试剂机构悄悄潜伏“创新药”

一种大规模基因组分析算法

发布日期：2019-12-25 浏览次数：119

单体型是一组遗传变异，并排位于同一条染色体上，在一个群体中传递给下一代。他们的检查使得人民可能理解某些复杂性状的遗传，例如发展成疾病的风险。然而，为了进行这种分析，家庭成员(父母和他们的孩子)的基因组分析通常是必要的，这是一个乏味而昂贵的过程。为了克服这个问题，日内瓦大学(UNIGE)和洛桑大学(UNIL)以及瑞士生物信息学研究所的研究人员开发了SHAPEIT4，这是一种功能强大的计算机算法，可以非常快速地识别成千上万个无关个体的单体型。结果与进行家族分析时一样详细，这是一个无法如此大规模进行的过程。他们的工具现在可以在开源许可下在线获得，整个研究团队都可以免费获得。细节可以在《自然通讯》中找到。

如今，遗传数据的分析变得越来越重要，特别是在个性化医学领域。每年测序的人类基因组数量呈指数级增长，最大的数据库涵盖了100多万个个体。这些丰富的数据对于更好地理解人类的遗传命运，无论是确定特定疾病的遗传权重，还是更好地理解人类迁徙的历史，都是极其宝贵的。然而，为了有意义，这些大数据必须以电子方式处理。“然而，计算机的处理能力保持相对稳定，不像基因组大数据的超高速增长，”领导这项工作的联合利华生物和医学学院计算生物学系SNSF教授奥利维耶·德拉诺说，“因此，我们的算法旨在优化遗传数据的处理，以接受这一数量的信息，并使其可供科学家使用，尽管其数量与计算机相对有限的能力之间存在差距。”

更好地理解单体型的作用

基因分型使得了解一个人的等位基因成为可能，即从他或她的父母那里获得的遗传变异。然而，在不知道父母基因组的情况下，我们不知道哪些等位基因同时传递给孩子，以及以何种组合传递。“如果我们真的想了解人类变异的遗传基础，这种单倍型信息是至关重要的，”联合监督这项工作的美国大学医学院遗传医学与发展系教授埃马努伊尔·德米特扎吉斯解释说，“无论是从群体遗传学还是从精确医学的角度来看都如此。”

例如，为了确定疾病的遗传风险，科学家评估已经发展成疾病的个体中是否或多或少存在遗传变异，以确定这种变异在所研究疾病中的作用。“通过了解单倍型，我们进行了相同类型的分析，”埃马努伊尔·德米特扎吉斯说，“然而，我们正从单一变异体转向多变异体的组合，这使我们能够确定同一染色体上哪些等位基因组合对疾病风险影响最大。这要准确得多！”

研究人员开发的方法使得在使用标准计算能力的同时，可以处理非常大量的基因组，大约500，000到1，000，000个个体，并在不知道它们的祖先或后代的情况下确定它们的单倍型。SHAPEIT4工具已经在英国生物银行(英国开发的科学数据库)中的50万个个体基因组上成功测试。“我们这里有一个大数据是什么的典型例子，”奥利维尔·德拉诺说，“只要它们能够被解释而不被淹没，如此大量的数据就会使建立非常高精度的统计模型成为可能。”

透明的开源许可证

研究人员决定让他们的工具在麻省理工学院的开源许可下对所有人开放:整个代码都是可用的，可以根据研究人员的需要随意修改。这一决定主要是为了透明性和再现性，也是为了激励来自世界各地的研究人员。奥利维耶·德拉诺解释说:“但是我们只允许使用分析工具，在任何情况下都不能使用数据库。然后由每个人在他或她拥有的数据上使用它.”

这个工具比旧工具更有效，也更快更便宜。这也使得限制数字环境影响成为可能。用于处理大数据的非常强大的计算机确实非常耗能；减少它们的使用也有助于减少它们的负面影响。（cyy123.com）

关键词： 一种大规模基因组分析算法

[ 资讯搜索 ] [ 加入收藏 ] [ 告诉好友 ] [ 打印本文 ] [ 关闭窗口 ]