Tuesday April 23, 2013
Anonymous: Qual o método utilizado para análises comparativas entre DNA's de diferentes espécies? Como a ancestralidade em comum é revelada? Obrigado.
Existem diversos métodos para a comparação entre amostras de DNA de diferentes espécies, dependendo de qual sejam os objetivos do estudo. Por exemplo, caso o interesse seja identificação de espécies, metodologias como os ’barcodes’, têm sido bastante usadas e se baseiam no sequenciamento de genes ou regiões genômicas específicas que mudem sutilmente, mas de forma bem identificável entre as espécies, mas não entre os membros da espécie. Porém, parece, pela sua segunda pergunta, que você esteja interessado nos métodos de reconstrução filogenéticos - ou seja, os métodos em que as relações de parentesco evolutivo entre diferentes espécies são inferidas – moleculares.
Inferindo parentesco evolutivo:
O que os métodos de reconstrução filogenética oferecem como resultado são hipóteses de relacionamento evolutivo. Estas hipóteses sobre as relações de parentesco são expressas na forma de dendrogramas, isto é, de diagramas na forma de árvore que ilustram as relações genealógicas entre as linhagens de organismos. Nestes diagramas formados de nós e ramos, os ramos representam linhagens que se estendem ao longo do tempo, enquanto os nós terminais, representam os grupos de organismos analisados (que gostaríamos de saber a estrutura de parentesco) e os nós internos representam os pontos de divergência em que uma linhagem da origem a outras duas (no caso de espécies seriam os eventos de especiação) a partir de um ancestral comum. Desta maneira, os diversos grupos são ligados por pontos e ramos, com os organismos evolutivamente mais aparentados sendo ligados pelos nós mais próximos que representam seus ancestrais comuns mais recentes. Este padrão de ramos e que define as relações entre os táxons é chamado de topologia. Existem diversos tipos de dendrogramas, como os tradicionais ‘cladogramas’, que são os produtos da análise cladística, e os filogramas, onde o comprimento dos ramos mostra a quantidade de mudança evolutiva, e as 'árvores filogenéticas’ propriamente ditas, nas quais também são apresentados os tempos de divergência entre as linhagens.
Como podemos ver por meio do diagrama abaixo que ilustra um cladograma dos grupos hipotéticos, representados como círculos azuis (os nós terminais), os ancestrais comuns são representados pelos nós internos (os círculos pretos) e pela raiz, o ancestral comum de todo os organismos analisados no cladograma, que são inferidos pela análise dos caracteres homólogos derivados compartilhados, as sinapomorfias [cujas árvores resultantes são julgadas por diferentes critérios de 'otimalidade’ [como vamos ver mais adiante], com a parcimônia, sendo o critério usado pela cladística, mas que podem variar bastante quando são sequências de biomoléculas como já vimos.] Com cada conjunto de organismos compartilhando ancestrais comuns em diferentes pontos (nós internos) do diagrama, com aqueles mais aparentados compartilhando ancestrais comuns mais próximos e os mais distantes compartilhando ancestrais comuns com grupos mais distantes por meio de seus ancestrais comuns mais próximos, como fica claro a analisarmos os dois grupos monofiléticos inclusivos dentro dos círculos tracejados em amarelo e vermelho.
Os diversos métodos de inferência filogenética molecular, geralmente, começam com a escolha das unidade ou grupos (espécies, por exemplo) a serem analisados e dos características a serem empregados nesta análise [Sobre filogenias veja “A História da Vida: Observando os Padrões” e “Entendendo a filogenia” Parte I e II do ’Entendendo a Evolução’]. No caso dos métodos moleculares, os características utilizadas na reconstrução filogenética são sequências de biomoléculas (como ácidos nucleicos e proteínas) que são consideradas homólogas e que estejam presentes em todos os grupos que fazem parte da análise. Assim, como na sistemática filogenética tradicional - em que são usadas características morfológicas, ecológicas ou etológicas compartilhadas - cada um destes características podem existir em vários estados. No caso das biomoléculas, estes estados podem ser os diferentes nucleotídeos ou resíduos de aminoácidos que podem ocupar uma determinada posição na sequência. Porém, ao longo da evolução, as sequências podem mudar de diversas formas, não apenas alterando aminoácidos ou nucleotídeos. Muitas vezes um gene ou proteína pode sofrer deleções e inserções, alternado inclusive seu. Então, de modo a maximizar as regiões comparáveis, torna-se fundamental o alinhamento das sequencias, existindo vários algoritmos capazes de executar esta tarefa. Neste processo, as sequências são ajustadas de modo a aumentarem a quantidade de sítios com o mesmo estado de caráter (i.e. aminoácidos ou nucleotídeo) e quando isso não é possível alinhando com sítios similares, além levar em conta as eventuais inserções e deleções, por meio da adição nos alinhamentos por 'gaps’ (-) acrescentados em algumas das sequências [1].
Os métodos filogenéticos moleculares:
Existem duas classes principais de métodos filogenéticos, aqueles baseados em distâncias - que usam matrizes calculadas a partir de comparações par a par das sequencias alinhadas, tendo como base um modelo de substituição, isto é, um modelo de evolução das sequencias - e aqueles baseados em caracteres. Estes últimos são diretamente inspirados nos métodos da cladística.
Métodos de Distância:
Nestes métodos os dados das sequências são primeiramente transformados em uma matriz de distâncias entre pares de sequências, com o comprimento total dos ramos necessários para ajustar esta matriz para cada topologia possível sendo calculado, com a topologia escolhida sendo aquela com o menor comprimento total de ramos. A distância evolutiva entre um par de sequências pode ser estimada de várias maneiras, com a forma mais simples sendo distância-p, isto é, a fracão dos sítios em que as duas sequências diferem. Infelizmente este tipo de métrica de distância subestima a real quantidade de evolução, já que não leva em conta a possibilidade de múltiplas substituições em um mesmo local [1]. Aí entram os chamados métodos de 'Evolução Mínima’ (ME, Minimum Evolution), que levam em conta a possibilidade de que tenham ocorrido múltiplas substituições na mesma posição da sequências. O problema é que esta classe de métodos poder ser computacionalmente muito dispendiosa [1] e como os métodos de distância são, normalmente, usados pela sua rapidez, nem sempre compensa empregar os métodos de ME.
Para a construção das 'árvores’ propriamente ditas são empregados algoritmos de agregação ou clusterização, ou seja, de atribuição de um conjunto de unidades a grupos (ou clusters) de modo que os objetos do mesmo grupo sejam mais semelhantes entre si do que são dos objetos de diferentes clusters. As análise de agrupamento hierárquico pode ser aglomerativa (começando com elementos únicos que unem sucessivamente os em clusters, ou divisivas, começando com todos os objetos e, sucessivamente, dividindo-os em partições [2, 3]. Entre os métodos que usam distâncias, o chamado neighbor-joining, é um dos mais usados, principalmente, por causa da sua eficiência computacional, especialmente quando a quantidade de sequências analisadas é muito grande. Este método funciona em passos, minimizando a soma dos comprimentos dos comprimentos dos ramos a cada passo do processo de agregação ('clusterização’) das sequências [1, 2]. Outro método bem utilizado é o UPGMA (’Unweighted Pair-Group Method using arithmetic Averages’), no qual os pares de sequências que mostram a menor distância evolutiva estão agrupados em primeiro lugar. Um dos principais problemas com estes métodos é que seu uso pressupõe que a taxa evolutiva manteve-se constante ao longo da história evolutiva de um dado conjunto de organismos, mas raramente esperaríamos que fosse verdade na maioria dos casos [1].
Métodos baseados em caracteres:
Entre os principais métodos baseados em caracteres estão os de 'Máxima Parcimônia’ (MP) - uma versão do método de parcimônia empregado na cladística (veja “Journey into Phylogenetic Systematics”), os de ’máxima verossimilhança’ (ML, Maximum Likelihood) e, nas últimas décadas, vem se tornando cada vez mais muito comum o uso de métodos Bayesianos*, envolvendo MCMC, isto é, simulações de Monte Carlo de Cadeias Markovianas**, que são derivadas da aplicação do famoso teorema de Bayes e das técnicas de inferência estatística derivadas dele [2]. A principal diferença entre estes métodos é em relação ao critério de 'otimalidade’ específico usado para avaliar a adequação do conjunto de dados fornecidos (no caso, os alinhamentos de sequências) a uma dada estrutura de nós e ramos de árvores (isto é, topologia) de modo a escolher o melhor resultado em termos do critério utilizado [1]. Os métodos baseados em caracteres têm em comum o fato de compararem simultaneamente todas as sequências alinhadas, considerando uma característica (por exemplo, um determinado sitio de nucleotídeo no alinhamento) de cada vez ao calcular a pontuação (’score’) de cada árvore [3].
Nos métodos MP, a árvore verdadeira é escolhida a partir da topologia dos dendrogramas cuja construção demandou o menor número de alterações para ajustar-se aos dados das sequências. Já os métodos baseados em ML, a escolha da árvore recai sobre aquela, cuja topologia, obteve a maior verossimilhança dado um determinado modelo probabilístico de substituições de nucleótidos ou aminoácidos [1, 2, 3]. A verossimilhança (lH) de uma hipótese (H) é igual à probabilidade de observar os dados caso a hipótese esteja correta (P [D|H]) [3]. O método estatístico da máxima verossimilhança (ML) escolhe entre hipóteses, selecionando aquela que maximiza a sua verossimilhança, ou seja, aquela que torna os dados mais prováveis dado o modelo sendo assumido como verdadeiro. Assim, no contexto da filogenia molecular, por meio de um modelo de substituição de nucleótidos ou aminoácidos é possível calcular a probabilidade de qualquer combinação possível de topologias de árvores e de comprimentos dos ramos. Desta maneira, a topologia e os comprimentos dos ramos que maximizarem essa probabilidade (ou, algo equivalentemente, como o seu logaritmo natural que é o mais usado por questões pragmáticas) são as estimativas ML [1, 2, 3].
Os métodos bayesianos (InfB-MCMC ) partem do mesmo arcabouço matemático dos ML, mas enquanto que nos métodos ML os parâmetros são consideradas constantes desconhecidas fixas, nos métodos Bayesianos, os parâmetros do modelo são considerados como variáveis aleatórias com distribuições estatísticas. Antes da análise dos dados, aos parâmetros são atribuídos uma distribuição a priori, que é, então, combinada com os dados (ou suas verossimilhanças) para gerar a distribuição a posteriori que serve de a base para as inferências sobre os parâmetros que devem ser estimados [Veja o artigo do Bule Voador, “Ciência e inferência. ParteIII: O bom e velho reverendo”]. O principal algoritmo empregado para este tipo de abordagem são os baseados em ’Cadeia de Markov’ por simulação de Monte Carlo (MCMC, de Markov chain Monte Carlo). As 'Cadeias de Markov’ são uma sequência estocástica (ou cadeia) de estados cuja probabilidade da mudança do estado atual para outro estado ou para permanecer no mesmo estado não dependem dos estados passados,apenas do estado atual [2, 3]. Assim, a escolha da árvore resultante dependerá do menor número de mudanças no caso dos métodos de máxima parcimônia, o valor de log-verossimilhança (log-likelihood) nos métodos de máxima verossimilhança e a probabilidade posterior nos métodos inferência bayesiana [3].
O ponto chave deste conjunto de estratégias é estimação da distância evolutiva entre os pares de sequências que pode ser feito de diversas maneiras. A escolha do método de construção é por vezes um pouco arbitrária, dependendo muitas vezes de questões como o tempo, disponibilidade de software e de poder computacional e mesmo das predisposição filosóficas do pesquisador, como lembram Kumar e Philipski [1]. Isto é assim por que: (1) nenhum método é uniformemente melhor em reconstruir a verdadeira árvore quando o comprimento das sequências é pequeno e (2) todos os métodos tendem desempenham bem quando os dados são suficientes, exceto quando eles são inconsistentes. Outro fator importante é que todos estes métodos dependem de certas suposições sobre como se dá a evolução das sequências, ou seja, eles pressupõem modelos de evolução explicita ou implicitamente. Por exemplo, os métodos que usam matrizes de distância, máxima verossimilhança e inferência Bayesiana todos fazem uso de um modelo de substituição explícito, enquanto que os métodos de máxima parcimônia não tem um modelo explícito, sendo seus pressupostos estão implícitos [1, 2, 3].
Modelos de evolução:
Existem muitos modelos de evolução molecular com muitos parâmetros diferentes que podem ser variados, tais como frequências das bases, as taxas de substituição das matriz, a porção de sítios invariáveis e mesmo o tipo de distribuições estatística a ser usada, com a gama, que permitem variar as frequências de mutações ao longo das sequências, incorporando mais realismo ao processo. Por isso, estes modelos podem ir dos mais simples em que as frequências de bases são consideradas iguais (25%) para cada tipo de nucleótido e as taxas de substituição entre nucleotídeos ou aminoácidos sendo considerada como igual, para cada tipo de mutação pontual, passando pelo uso das frequências de base calculadas a partir do próprio conjunto de dados empíricos e pressupondo-se diferenças entre tipos de substituições diferentes, como o caso das transições e transversões, chegando até em modelos muito elaborados em que as matrizes de substituição apresentam seis taxas de substituição diferentes, uma para cada tipo de mutação pontual (A → C, A →G, A →T, C→ G, C→T, G→T) e assim por diante [Veja aqui]. Além disso, alguns métodos, como os ML e os Bayesianos podem mesmo comportar modelos bem mais complexos em que tanto os nucleotídeos como os códons que eles formam nas regiões codificadoras das proteínas são modelados, dando muito mais realismo e precisão ao processo de modelagem e inferência [site, 2, 3]. Por fim, é possível ao incorporar as chamadas 'distribuições gama’ que possibilitam modelar diferenças nas taxas de substituição em diferentes pontos das sequencias, levando em conta hotspots mutacionais [2, 3, site] e zonas de lenta evolução.
Demanda computacional:
Em tese, a árvore com a melhor pontuação (dada pelo critério de 'otimalidade’), de todas as possíveis, deveria ser identificada por meio da comparação de todas as árvores possíveis. Porém, o número de possíveis topologias das árvores aumenta muito rapidamente à medida que o número de grupos comparados aumentam. Então, na prática, devido ao grande número de árvores possíveis, a pesquisa exaustiva simplesmente não é computacionalmente viável, exceto para conjuntos de dados muito pequenos, o que levou a necessidade do desenvolvimento de estratégias heurísticas de busca de árvores que são implementadas na forma de diferentes algoritmos. Estes algoritmos de busca heurística de árvores não garantem encontrar a melhor árvore sob o critério usado, mas tornam viável a analise de grandes conjuntos de dados. Felizmente, mesmo valendo-se destas estratégias, a qualidade das árvores filogenéticas produzidas por estas heurísticas rápidas não é muito afetada em relação as obtidas por métodos mais exaustivos e completos [2, 3].
Árvores de genes e árvores de grupos taxonômicos:
Além disso, existem diferenças importantes entre as chamadas árvores de genes e as árvores de espécies (ou outros táxons), isto ocorre, por que nem sempre a árvore evolutiva de um dado gene coincide com a árvore das espécies que possuem este gene***. Por causa disso é preciso atenção na escolha das sequencias, sendo comum no caso da reconstrução de relações entre grupos de seres vivos, o uso de vários genes homólogos diferentes. Há muitas considerações na escolha das sequências a serem utilizadas na análise. Por exemplo, caso queiramos analisar organismos distantemente relacionados, sequências de aminoácidos são geralmente as mais adequadas, porque as sequências de nucleótidos evoluem muito mais rapidamente do que as sequências de aminoácidos devido à redundância do código genético. Porém sequências de nucleótidos podem ser bem mais informativas, especialmente ao permitir uma distinção entre substituições de nucleótidos que não alteram os aminoácidos codificados (silenciosas) e aquelas que alteram o resíduo de aminoácido modificado fazem (de troca ou 'não silenciosa’ substituição). Já para estudos populacionais intraespecíficos ou em estudos entre espécies intimamente relacionadas em mamíferos, o DNA mitocondrial é o mais empregado, porque certas partes dos genomas mitocondriais evoluem mais rapidamente do que os genes nucleares, não sofrendo recombinações (pelo menos, até onde sabemos), proporcionando assim uma maior variação que nos permite reconstruir a história evolutiva desses grupos [1, 2].
Estimando tempos de divergência usando o relógio molecular:
Na segunda metade da década 1960 alguns estudos pioneiros, como os de Linus Pauling e Emile Zuckerkandl, mostraram que a divergência nas sequências de aminoácidos de proteínas entre linhagens relacionadas parecia ocorrer a taxas relativamente constantes, mesmo que estas taxas variassem de proteína para proteína. Foi a isso que se deu o nome de “relógio molecular”. Assim, é possível estimar o tempo de divergência entre linhagens a partir do nível de divergência molecular entre proteínas (ou sequencias de nucleotídeos) equivalentes nas linhagens, desde que seja possível uma calibragem das taxas absolutas de substituição de aminoácidos, como a que pode ser obtida por meio da análise do registro fóssil, das moléculas escolhidas [4, 5]. Atualmente, muitos pesquisadores têm procurado desenvolver e utilizar os chamados 'relógios moleculares relaxados’, ou seja, que podem variar de acordo com a linhagem para corrigir as limitações do modelo tradicional do relógio molecular que, muitas vezes, mostrava-se pouco realista [5].
Avaliando a confiabilidade das árvores:
Por fim, a confiabilidade das estimativas podem ser testadas por técnicas estatísticas, como bootstrap e jackknife, métodos de reamostragem. [Veja aqui para maiores detalhes] Estes métodos permitem o cálculo de distribuições estatísticas complicadas que podem ser estimadas por meio e criação repetida e análise de conjuntos de dados artificiais. Assim, os métodos de reamostragem, como é o caso dos procedimentos de bootstrap, envolvem a construção de novos conjuntos de sequências a partir do conjunto original de sequencias e construindo uma árvore para cada novo conjunto, calculando o percentual de vezes que um ramos em particular reaparece nas repetições bootstrap. Esta porcentagem é chamada de valor de bootstrap; com os ramos com valores de bootstrap > 95% sendo amplamente considerados como refletindo as relações corretas. Nos métodos que usam InfB-MCMC geralmente não empregam o procedimento de bootstrap e a confiabilidade dos ramos estão refletidos na própria probabilidade a posteriori [2] No bootstrap não paramétrico, estes conjuntos de dados são gerados por reamostragem com base nos dados originais, ao passo que no bootstrap paramétrico, os dados são simuladas de acordo com a hipótese que está sendo testada. [3] O nome bootstrap deriva da forma quase 'miraculosa’ através da qual este procedimento pode “alçando-se aopuxar-se pelos seus próprios cadarços” [veja este verbete da wiki], gerando distribuições estatísticas a partir de quase nada [3].
Resumo:
Na figura abaixo estão resumidas as diversas etapas do processo necessário para a inferência filogenética com base em dado moleculares.
Embora, eu tenha entrado em, talvez, muitos detalhes, esta resposta apenas arranha, muito superficialmente, o tema sobre análise filogenética, uma das áreas mais matematizadas e de demanda computacional das ciências biológicas, que continua em pleno desenvolvimento.
*Chamamos de inferência bayesiana os métodos de inferência que empregam o teorema de Bayes para atualizar a estimativa de probabilidade de uma hipótese quando novas evidências estão disponíveis. Este conjunto de procedimentos têm encontrado ampla gama de aplicações em várias áreas da investigação científica, da engenharia, medicina e do direito.
**Estes métodos, entretanto, mais do que revelar a ancestralidade comum propriamente dita de todas as espécies estudadas, destinam-se a revelar o padrão de específico de parentesco entre as diversas espécies (genes, indivíduos, populações, táxons), ou seja, o padrão relativo de ancestralidade comum entre as diversos alvos da análise. Para aplicarmos estes métodos é preciso já se pressupor que existam relações de parentesco entre as unidades investigadas, uma vez que o que quer se descobrir são as relações específicas de parentesco, bem como escolher características (sequências, no caso) que acreditemos serem homólogas, mais particularmente, ortólogas no caso de queremos reconstruir as filogenias de organismos vivos.
*** É preciso ter em mente que a evolução acontece com populações que possuem variabilidade genética e quando linhagens se separam, como quando ocorre a especiação, cada nova linhagem em formação não é necessariamente uma amostra representativa da variabilidade genética da população ancestral. Além disso, nem toda mudança que ocorre nas linhagens emergentes acontece durante o período da especiação, com muita mudança podendo acontecer bem depois do processo e parte dela envolvendo a perda de variabilidade em certos loci que ocorrem de maneira aleatória. Então, mesmo que em média populações evolutivamente mais próximas sejam geneticamente mais semelhantes, isso não quer dizer que ao analisarmos locus (sequencias/genes) individuais estes sempre irão refletir com precisão a história genealógica das linhagens. Na realidade, em casos particulares, sempre é possível que naqueles locus específicos espécies sejam mais parecidas com linhagens das quais compartilham ancestrais mais distantes do que são daquelas com que compartilham ancestrais mais próximos. Um fenômeno particularmente importante é o ILS (’Incomplete Lineage Sorting’) que seria algo como ’triagem incompleta de linhagens’. Mas existe ainda outro problema. Embora, a especiação alopátrica ou peripátrica pareça ser a modalidade mais comum - isto é, quando duas subpopulações geograficamente separadas divergem relativamente rapidamente - mesmo assim a especiação é um processo que pode ser estender (até bastante) no tempo, apenas com a diminuição gradual do fluxo gênico entre as populações divergentes (e mesmo com idas e vindas nesses processo), o que pode atrapalhar muito a inferência precisa das relações entre dois ou mais grupos. Por isso, além da escolha das sequencias, do uso de várias sequencias, a inferência filogenética molecular pode ser bem complicada dependendo da dinâmica, estrutura e história populacional das linhagens envolvidas.
————————————————-
Literatura Recomendada:
Kumar, Sudhir; and, Filipski, Alan (March 2008) Molecular Phylogeny Reconstruction. In: Encyclopedia of Life Sciences (ELS). John Wiley & Sons, Ltd: Chichester. doi: 10.1002/9780470015902.a0001523.pub2 [pdf]
Yang Z, Rannala B. Molecular phylogenetics: principles and practice. Nat Rev Genet. 2012 Mar 28;13(5):303-14. doi: 10.1038/nrg3186. Review. PubMed PMID: 22456349. [pdf]
Whelan S, Liò P, Goldman N. Molecular phylogenetics: state-of-the-art methods for looking into the past. Trends Genet. 2001 May;17(5):262-72. Review. PubMed PMID: 11335036. doi:10.1016/S0168-9525(01)02272-7 [pdf]
Damuth, John D (Apr 2001) Evolution: Tempo and Mode. In: eLS. John Wiley & Sons Ltd, Chichester. http://www.els.net doi: 10.1038/npg.els.0001720
Ho, S. (2008) The molecular clock and estimating species divergence. Nature Education, 1(1)
————————————
Literatura Adicional:
Xiong, J. Essential Bioinformatics, Cambridge University Press, 2006. 362 p.
Gigas, C. & Jambeck, P. Desenvolvendo bioinformática Rio de Janeiro: Campus ed,. 2001. 440p.
Lesk, AM. Introdução à Bioinformática, 2ª. edição, Porto Alegre: Artmed, 2005. 384 p.
Schneider, Horacio Métodos de Análise Filogenética - Um Guia Prático. 3ª Edição, Ribeirão Preto: Holos Editora, 2007. 200 p
Matioli, Sérgio Russo e Fernandes, Flora Maria de Campos Biologia Molecular e Evolução. 2ª Edição, Ribeirão Preto: Holos Editora, 2012. 256 p
Grande abraço,
Rodrigo