Marcas da adaptação: A teoria neutra e as assinaturas moleculares da seleção natural
A investigação de dados genômicos, em busca de pistas de seleção, constitui-se em uma poderosa ferramenta na identificação de regiões genômicas funcionalmente importantes. A identificação de regiões conservadas tem sido a tônica de muitos destes métodos. Entretanto, a seleção positiva pode também nos dar uma indicação da importância funcional de certas regiões e genes. O ponto principal é que a seleção natural, ao agir sobre os seres vivos, deixa determinadas "marcas" no padrão de diversidade dos nucleotídeos dos individuos de uma população (ou entre diferentes espécies aparentadas) e estas "marcas" são verdadeiras "assinaturas moleculares", características do regime de seleção ao qual determinado grupo de organismos foi submetido. Muitos métodos estatísticos foram desenvolvidos nas últimas três décadas para detectar a seleção natural com base na análise das seqüências de DNA ou outros dados moleculares.
Podemos dividir estes métodos em dois grandes grupos, (a) aqueles baseados na análise das distribuições alélicas e dos níveis de variabilidade; frequentemente dependentes de pressupostos muito restritivos quanto as características demográficas da população estudada; e (b) os baseados em comparações do grau de variabilidade entre sítios sinônimas e não-sinônimo. Estes, em marcante contraste com o grupo anterior, podem ser construídos sem os pressupostos demográficos que limitam as conclusões dos testes do primeiro grupo. Estes testes são úteis para a identificação de regiões especificas e sítios que tenham sido (ou sejam) alvos da seleção.
Antes de começarmos a discutir estes testes, porém, precisamos relembrar alguns conceitos e termos chave. Primeiro, é preciso que fique bem clara a diferença entre mutações sinônimas e não- sinônimas. Para tanto precisamos compreender o significado de um termo frequentemente empregado de forma errônea por não biólogos. O termo em questão é “código genético”.
Sempre que você ouvir algo como “os cientistas estão desvendando o código genético por trás da característica ...” desconfie, pois isso já foi feito há décadas. Não se enegane, o que estamos apenas começando a entender é a complexa arquitetura genética por trás de características morfológicas, fisiológicas e comportamentais dos seres vivos que emergem das interações que ocorrem durante o desenvolvimento. Aquilo que alguns chamam de mapeamento genótipo-fenótipo. Da mesma maneira, nossa compreensão sobre os padrões de herança de características complexas, como sucetibilidade a certas doenças relacionadas, é ainda muito precária. Porém, nós já temos uma ótima idéia do que é de como funciona o código genético.
O código genético é tão somente a relação entre certos tripletos de nucleotídeos [personificadas pelas cinco bases nitrogenadas A, T (ou U), G, C], que formam as porções
codificadoras dos genes e seus transcritos, e as proteínas codificadas por estas seqüências. A descoberta do “código genético universal” (e suas ilustrativas exceções) foi um dos pontos altos da biologia molecular da segunda metade do século XX. Então, quando vc pensar em “código genético” pense na tabela abaixo:
A síntese protéica se inicia com a transcrição de um segmento de DNA que serve de molde para a geração de uma fita de RNA mensageiro. Esta fita, então, é lida por grandes complexos macromoleculares, formados por proteínas e RNAs, chamados de ribossomos. Cada um dos tripletos, chamados de códons, pareiam com os anti-códons complementares (seguindo as regras de pareamento tradicionais A:U e C:G) das moléculas de RNA transportador que estão ligadas a aminoácidos específicos. Assim os ribossomos transferem a informação dos genes, contidas na seqüência de DNA (através de um RNA mensageiro), para a seqüência polipeptídica da nova proteína ou peptídeo que está sendo sintetizada..
Existem 20 aminoácidos e 64 combinações possíveis de três nucleotídeos. Mesmo se considerarmos que algumas destas combinações exercem funções como sinalizar o começo da transcrição e o final da mesma, mesmo assim somos obrigados a aceitar que existem mais códons do que aminoácidos. Por isso é que dizemos que o código genético é degenerado, como pudemos notar na figura anterior. Isso quer dizer que certas mutações modificam um códon, mutando-o em outro, porém, sem alterar o aminoácido codificado, portanto, não alterando a seqüência do polipeptídio. Essas mutações, em geral, não tem conseqüências* apreciáveis e, geralmente, acometem a terceira posição dos códons, sendo chamadas de mutação sinônima (ou silenciosa). Por outro lado, as mutações que alteram o códon, fazendo o ribossomo inserir outro resíduo de aminoácido na cadeia polipeptídica, são chamadas de não-sinônimas.
Mutações sinônimas, em geral, por terem um impacto funcional negligenciável, interferem muito pouco (ou não interferem) com a aptidão, entendida aí como uma medida de sucesso reprodutivo de um individuo. Estas mutações, bem como muitas outras mutações em regiões não codificadoras (como as em pseudogenes) tendem a evoluir muito mais rápido por não serem funcionalmente 'coagidas', escapando dos efeitos da seleção natural purificadora (ou negativa) que purga mutações deletérias que interferem com a função dos genes e proteínas.
Motoo Kimura (1968) e King & Jukes (1969) foram os primeiros a sugerir que a maioria dos polimorfismos são seletivamente neutros. Desde então, testar a hipótese de neutralidade tem sido um dos principais objetivos da genética molecular de populações. Porém, o mais interessante é que a teoria neutra fornece uma hipótese de nulidade para a evolução molecular. Isto é, ela descreve matematicamente como seria a dinâmica populacional de novos alelos na ausência de vantagens adaptativas conferidas por algum alelo, ou seja, quando apenas a deriva genética aleatória contribui para sua fixação (chegar a 100% de frequência), já que a seleção purificadora apenas elimina as variantes deletérias. Assim, nas
últimas décadas, passou-se a usar a teoria neutra como um modelo de nulidade (H0) contra o qual as ocorrências especificas de seleção podem ser detectadas (HAlternativa). Boa parte do interesse tem sido em usar procedimentos baseados neste modelo para fornecer evidências que corroborem instâncias de seleção positiva e “varreduras seletivas” (selective sweeps).
Como afirma Nielsen (2001), a seleção positiva ocorre quando uma nova mutação seletivamente vantajosa (que aumentam a aptidão de seu portador, ao mudar alguma característica sua) está segregando em uma população. O interesse, deste tipo particular de seleção, é que ele pode fornecer evidências para a adaptação ao nível molecular, contribuindo para a nossa compreensão das relações entre genótipo e fenótipo. Selective sweeps referem-se à eliminação de variação em loci neutros ligados a um alelo positivamente selecionado ruma para a fixação em uma população.
Testes baseados na distribuição de alelos ou níveis de variabilidade:
Um dos testes mais populares, deste grupo, é o teste D de Tajima, onde D é a diferença escalonada na estimativa de θ4Neμ (Ne= tamanho efetivo da população, μ=a taxa de mutação por geração), com base no número de pares de diferenças e no número de sítios polimórficos segregantes em uma amostra de seqüências de nucleotídeos. É definido quando θ^π é um estimador de θ com base no número médio de pares de diferenças, θ^ω é um estimador de θ com base no número de sítios polimórficos e Sθ^π é uma estimativa do erro padrão da diferença das duas estimativas. Se o valor de D é muito grande, ou muito pequeno, a hipótese neutra (H0) é rejeitada. O valor crítico é obtido por meio de simulações, se a variação da taxa de mutação e recombinação sejam levadas em conta. Existem vários testes semelhantes com base em teste estatísticos um pouco diferentes.
Este tipo de teste, foi até certo ponto, bem sucedido em muitas aplicações, principalmente ao testar o modelo de equilíbrio neutro. Porém, não é fácil interpretar os resultados significantes obtidos a partir destes testes. A hipótese de nulidade, não é puramente a hipótese neutra. Ela é uma hipótese composta que inclui certas suposições sobre a demografia das populações, como tamanho constante da população e ausência de estrutura populacional. Em suma, desvios significantes do modelo de equilíbrio neutro, isoladamente, não fornecem evidências suficientes contra neutralidade seletiva.
As simulações de genealogias podem nos revelar, com mais detalhe, os problemas relativos a este tipo de teste. Em (a) podemos observar o que acontece como o modelo de equilíbrio padrão neutro. Já em (b) notamos que tanto o modelo com um estrangulamento severo (gargalo de garrafa populacional) ou uma completa 'varredura seletiva' (selective sweep) t gerações no passado produzem o mesmo padrão. Portanto, o efeito de um gargalo de garrafa severo ou uma varredura completa seletivo é forçar todas as linhagens a coalescer no momento do estrangulamento/ varredura (gargalo de garrafa/ selective sweep). Por isso o D de Tajima não consegue diferenciar estes dois tipos de eventos. Além disso, testes de neutralidade baseados na distribuição alélica podem, muitas vezes, ter muito menos poder (estatístico) contra os modelos comuns de seleção do que contra os desvios do modelo de equilíbrio neutro, causados por alterações demográficas (Para maiores detalhes veja Nielson, 2005).
Comparando a variabilidade em diferentes classes de mutações:
O outro grupo de testes compara a variabilidade em diferentes classes de mutações, sendo bastante robustos em relação à alterações de características demográficas e estruturais de uma população. Estes testes de neutralidade tem como base estatísticas com distribuições que são independente da genealogia, ou só depende da genealogia através de um 'parâmetro incômodo' que pode ser eliminado. O teste de McDonald-Kreitman é um dos exemplos mais famosos deste tipo de teste. Neste teste, a razão entre polimorfismos não-sinônimoe sinônimo, dentro da espécie, é comparada com a razão entre o número de diferenças não-sinônimas e sinônimas, entre as espécies, em uma tabela de contingência 2x2.
A justificativa deste teste baseia-se no fato de que polimorfismo e divergência serem impelidos apenas por mutação e deriva genética, portanto, a razão do número de diferenças fixas para o de polimorfismo deve ser a mesma tanto para mutações não-sinônimas como para as sinônimas. Em estatística, os parâmetros que não são de interesse para o pesquisador, mas não pode ser ignorado, são chamados de 'parâmetros incômodos'. Entretanto, é possível eliminar tais parâmetros ao condiciona-los, usando uma estatística suficiente, ou seja, uma estatística que contém todas as informações pertinentes dos dados sobre o parâmetro. No caso do teste de McDonald-Kreitman, o comprimento total da árvore é o 'parâmetro incômodo' e o número total de substituições é uma estatística suficiente para este parâmetro. Ao condicionar a partir do número total de substituições, na tabela de 2x2, o parâmetro de comprimento total da árvore é eliminado. Desta forma, um teste de neutralidade, que seja válido para qualquer possível modelo demográfico, pode ser estabelecido. O teste de McDonald-Kreitman tem sido muito útil para detectar seleção. Testes, como este, não se baseiam em pressupostos demográficos das populações porque são construídos através da comparação de diferentes tipos de variabilidade dentro do mesmo locus, ou região do genoma. Já que sítios não-sinônimos e sinônimos, por exemplo, são intercalados entre si em regiões codificadoras, o efeito do modelo demográfico é o mesma para ambos os tipos de sítios.
Porém, o método mais direto para mostrar a presença da seleção positiva é demonstrar que o número de substituições sinônimas por sítio não-sinônimo (dN) é significativamente maior do que o número de substituições sinônimas por sítio sinônimo (dS). Vários autores desenvolveram diversos métodos estatísticos para estimar o número de substituições sinônimas por sítio sinônimo (dS) e o número de substituições sinônimas por sítio não não-sinônimos.
Diferentes métodos dependem de pressupostos diferentes, mas dão estimativas semelhantes, a menos que o grau de divergência de seqüência (d) seja muito elevado. Quando d é elevado, a confiabilidade das estimativas de dN e dS é baixa em todos os métodos. Nei (2005) afirma que, para efeitos de teste de seleção positiva ou negativa, estimativas conservadoras de dN e dS são preferíveis, porque os pressupostos dos métodos paramétricos não são atingidos. Para minimizar os erros devido a suposições incorretas, pode-se usar também o número de diferenças sinônimas por sítio sinônimo te (pS) e o número de diferenças sinônimas por sítio não sinônimo. Nesta abordagem, a evolução neutra é examinada testando a hipótese nula de dN = dS ou pN = pS. Assim, um valor de dN> dS significante implica que as mutações sinônimas são fixadas com uma maior probabilidade do que as neutras, devido à seleção positiva. Então, se pN (dN) é significativamente maior do dS (pS), pode-se concluir que a seleção positiva está envolvida.
Em contrapartida, dN (pN) < dS (pS) implica a ocorrência de seleção negativa ou depuradora. A Figura a seguir retirada de Nei (2005) mostra a relação dN / dS quando um grande número de genes ortólogos (cuja similaridade é inferida como resultado de ancestralidade comum) são comparados entre humanos e camundongos. Esses resultados indicam claramente que a maioria dos genes estão sob seleção purificadora.
Hughes & Nei (1988) mostraram que dN> dS no sítio de ligação antigênica do Complexo Principal de histocompatibilidade (MHC). Esta observação forneceu provas inequívocas da ocorrência de seleção positiva na região, provavelmente do tipo sobre-dominante ou dependente da freqüência.
Os pesquisadores compararam dN e dS para sítios do peptídeo de ligação (PBS), o sítio de reconhecimento de antígeno (composto por cerca de 57 aminoácidos), e sítios não-PBS entre genes do MHC de seres humanos e camundongos. As moléculas do MHC estão envolvidas no reconhecimento de peptídeos 'próprio(s)' (do próprio indivíduo) e peptídeos 'não-próprio(s)' ao indivíduo. Esta distinção é crucial para os sistema imunológico e o MHC desempenha um papel muito importante nas etapas iniciais de resposta imune adaptativa. Os resultados destas comparações mostram de forma clara que dN>dS para as regiões PBS, mas dN < dS para as não-PBS. Esses resultados sugerem que, em PBS, a seleção positiva está atuando, enquanto que nos sítios não-PBS a seleção purificadora prevalece.
A relevância biológica deste resultado não deve ser subestimada. O elevado grau de polimorfismo dos loci do MHC de vertebrados já vinha sendo debatido, por mais de duas décadas, antes de 1988, sendo que uma das hipóteses levantadas para explicar este polimorfismo era a chamada vantagem do heterozigoto ou seleção sobre-dominante. Entretanto, não haviam evidências que corroborassem esta hipótese. Como dN seria maior do que dS caso a seleção sobre-dominante existivesse ocorrendo, Hughes e Nei (1988) propuseram que o alto grau de polimorfismo MHC é, provavelmente, causado por este tipo de regime seletivo. O grupo de Nei demonstrou, posteriormente, que a hipótese sobredominância também pode explicar o polimorfismo trans-específico de genes do MHC já observado por vários pesquisadores no passado.
Estes estudos estimularam uma gama de outros trabalhos sobre os valores relativos de dN e dS de genes MHC de diferentes espécies, sendo que a maioria dos estudos mostraram resultados compatíveis. Investigações semelhantes se seguiram, envolvendo outros genes do sistema imune, incluindo aqueles para IGS, receptores de células T (TCR) e de células natural killer (NK). Valores de dN > dS também foram observados em muitos genes, como os de resistência a patógenos em plantas. Outro genes que mostram frequentemente a razão dN.> dS são os genes antigênicos do vírus influenza, do vírus HIV-1, de plasmódios, e outros parasitas. Estes genes, especialmente o RNA viral, apresentam uma alta taxa de mutação o que ajuda os parasitas a evadirem os sistemas de vigilância dos organismos hospedeiros. Estes estudos sugerem que a alta taxa de substituição não-sinônima comparada com a de substituição sinônima é, aparentemente, causada pela 'corrida armamentista' entre hospedeiros e parasitas. Existem muitos outros testes que não poderiam ser resumidos neste espaço e que envolvem considerações matemáticas bem mais complicadas, o que fogem ao escopo deste artigo de divulgação e mesmo as minhas capacidades de compreensão e explicação. Porém, a tabela abaixo dá uma idéia geral dos principais testes empregados na biologia evolutiva para detectar as assinatura moleculares da seleção natural.
Como realizar o teste de McDonald-Kreitman?
Para termos uma idéia melhor de como funcionam estes testes, vamos olhar para os dados reais coletados por John McDonald e Marty Kreitman, como mostrado na tabela a seguir. A primeira linha mostra o número de substituições envolvendo mudanças de aminoácidos no gene Adh, a de baixo mostra o número de mudanças silenciosas, sinônimas. A coluna a esquerda mostra o número de alterações fixas entre as espécies e a da direita mostra o número de polimorfismos em Drosophila melanogaster.
Existem 42 polimorfismos silenciosos em Drosophila melanogaster e 2 diferenças fixas entre as espécies. Além disso, os pesquisadores observaram 2 polimorfismos com mudança de aminoácidos e 17 diferenças fixas silenciosas. Com base na teoria neutra, as razões das diferenças fixas para os polimorfismos devem ser as mesmas das diferenças de substituição (7/2=3,5) para as diferenças silenciosas (17/42~0,4). Porém, as razões não são as mesmas, mas seriam estas diferenças, entre as razões obtidas e esperadas, estatisticamente significantes? Para descobrir isso, é preciso primeiro determinar os valores esperados para cada uma das quatro células. O valor esperado para o número de mudanças fixas com mudança de aminoácidos é igual ao número total de mudanças com troca de aminoácidos (7+2=9) vezes o número total de diferenças fixas (7+17=24), dividido pelo total geral (7+17+2+42=68). A resposta é 3,176, arredondado para 3.2. Fazendo o mesmo para todas as quatro células da tabela, obtemos:
Baseado nos dados de McDonald e Kreitman, esperaríamos observar 3,2 diferenças fixas com trocas de aminoácidos e 5,8 polimorfismos com troca de aminoácidos, 20.8 mudanças silenciosas fixas e 38,2 polimorfismos silenciosos. O passo final é comparar os números reais observados (primeira tabela) com os número esperados (segunda tabela) para todas as quatro células. Comparado com os valores esperados, existem 3.8 alterações fixas a mais do que o esperado. Nós vemos desvios da mesma magnitude, mas, por vezes, de sinais diferentes para as outras células na tabela. Por exemplo, existem 3,8 menos polimorfismos com troca de aminoácidos do que o esperado.
Como podemos ter confiança de que estes desvios não podem ser explicados pelo acaso, ou por alguma outra força em operação? McDonald e Kreitman usaram um um teste estatístico de goodness-of-fit que, como o próprio nome sugere, nos diz o quão bem o esperado se ajusta ao observado. O teste utilizado por McDonald e Kreitman foi o teste-G. Os resultados deste teste indicaram que a probabilidade dos valores observados diferirem tanto em relação aos valores esperados, como os dados de McDonald-Kreitman fizeram, é de menos de 1%. Portanto, podemos estar bastante confiantes de que o excesso de substituições que alteram os aminoácidos codificados não se devem apenas ao acaso. No
entanto, outra possibilidade poderia produzir o mesmo padrão de excesso de substituições não-silenciosas. Isso poderia acontecer caso as populações de ambas espécies de Drosophilas passassem por um gargalo de garrafa, acumulando muitas mutações ligeiramente deletérias, que seriam mantidas graças a ineficiência da seleção negativa devido a redução do tamanho efetivo da população. Este processo resultaria em muitas diferenças nas substituições entre as espécies, e quando as populações voltassem a se expandir muitas destas mutações, ligeiramente deletérias, seriam purgadas pela seleção natural, o que poderia gerar o padrão observado. Porém, além do fato desta explicação
ser menos parcimoniosa, existem evidências de que as populações de Drosophilas permaneceram constantes ao longo do tempo.
Existem outros complicadores, como a eventual falta de poder estatístico destes testes. Porém, a principal utilidade deste tipo de teste é gerar hipóteses biológicas adaptativas para posterior verificação experimental, aumentando as possibilidades de teste em laboratório. Hoje, métodos filogenéticos permitem-nos reconstituir os estados ancestrais de seqüências de DNA e de ourras moléculas. Assim é possível usá-los para descobrir os estados ancestrais das seqüências de interesse e, com o auxílio da tecnologia do DNA recombinante e expressão destes genes em organismos modelo ou células isoladas, podemos gerar moléculas representando as diversas etapas evolutivas. Então, ao medir as propriedades bioquímicas e farmacológicas das proteínas resultantes, podemos estimar a aptidão conferida por cada variante. Assim testes ainda mais robustos podem nos revelar mais detalhes sobre como a seleção natural age nos genomas destes seres vivos.
Referências:
Nei, M. (2005) Selectionism and neutralism in molecular evolution. Mol. Biol. Evol. 22:2318-2342.
Nielsen R. Statistical tests of selective neutrality in the age of genomics. Heredity. 2001 Jun;86(Pt 6):641-7. Review. PubMed PMID: 11595044.
Nielsen R. Molecular signatures of natural selection. Annu Rev Genet. 2005;39:197-218. Review. PubMed PMID: 16285858.
Para o exemplo como o teste de MacDonald-Kreitman foram utilizados principalmente:
Forber P. (2005) Testing the Neutral Theory of Molecular Evolution.
Johnson, Norman A. ( 2007) Darwinian Detectives: Revealing the Natural History of Genes and Genomes Oxford University Press
MacDonald, J., and Kreitman, M. (1991) “Adaptive protein evolution at the Adh locus in Drosophila.” Nature 351: 652–654.
Referências adicionais:
Duret, L. (2008) Neutral theory: The null hypothesis of molecular evolution. Nature Education 1(1)
Hughes, A. L. and M. Nei (1988) Pattern of nucleotide substitution at
major histocompatibility complex class I loci reveals overdominant
selection. Nature 335:167-170.
Kimura, M. "Evolutionary Rate at the Molecular Level," Nature (1968), 217: 624-26.
King JL, Jukes TH. Non-Darwinian evolution. Science. 1969 May 16;164(881):788-98. PubMed PMID: 5767777.
Créditos das figuras:
MEHAU KULYK / SCIENCE PHOTO LIBRARY
CHRISTIAN DARKIN / SCIENCE PHOTO LIBRARY
JACOPIN / SCIENCE PHOTO LIBRARY
PASIEKA / SCIENCE PHOTO LIBRARY
VICTOR DE SCHWANBERG / SCIENCE PHOTO LIBRARY
EYE OF SCIENCE / SCIENCE PHOTO LIBRARY