99% confuso!
As ciências permeiam praticamente todas as atividades humanas e as evidências científicas são um importante instrumento de decisão e convencimento. Sendo assim a citação de dados da literatura científica (reais ou imaginados) desempenham um papel na retórica moderna em nossa sociedade. Infelizmente esse status privilegiado do conhecimento científico (mas que inspira também ataques e desconfiança) frequentemente é utilizado muito mais para ofuscar do que para informar. Em uma dessas tardes que parecem infinitas, assistindo a um programa de entrevistas capitaneado por um apresentadora de TV bem conhecida, comecei a prestar a atenção em uma dupla de entrevistados que aparentemente haviam criado um baralho de Tarot usando a biota local do Brasil.
Em um dado momento, o criador principal do baralho começou a falar de ciência, pior especificamente de biologia. Durante um rompante de multidisciplinaridade um dos dois entrevistados citou o “fato provado cientificamente” (essas palavras gelam o sangue da maioria das pessoas que tem um pouco mais de familiaridade com metodologia e com a prática científica. É quase uma reação instintiva de quem espera o pior, logo após ao proferimento dessa sentença) que 99% do DNA do homem era igual ao do Chimpanzé (senti alguns espasmos de dor, mas nada que não pudesse superar, por enquanto era apenas imprecisão), mas se comparássemos o Homem com um gafanhoto* também encontramos 99% de semelhança. Mas tão frustrante quanto a declaração foi o fato de que ninguém no programa pareceu estranhar ou se incomodar com tal asserção que contraria quase tudo que sabemos sobre genética, genômica e evolução. Mesmo não havendo ali nenhum especialista é muito claro que tal afirmação é, no mínimo, muito estranha.
Depois do mal estar e da frustração por não poder entrar na TV, comecei a pensar por que algumas informações são banalizadas de um jeito que as despe de toda sua relevância. Sem um pouco de contexto esse tipo de número é completamente mistificador. Frequentemente acabam caindo sendo utilizados por criacionistas que os usam para apontar as supostas contradições e discrepâncias e, a partir daí, decretar a falência da biologia evolutiva, sem precisar produzir um átomo de evidência científica original. Mas esta linha de raciocínio é claramente completamente destituída de qualquer mérito. É apenas um pseudo-argumento. Os diferentes números que podem ser encontrados em publicações científicas não são derivados de contradições entre os estudos ou de grandes incertezas nas estimativas, mas simplesmente do fato de que coisas diferentes estão sendo comparadas em momentos diferentes usando métricas diferentes entre grupos de seres vivos diferentes. Uma parte da culpa, sem divida, está nos próprios pesquisadores e divulgadores das ciências que não contextualizam essas porcentagens e nem sempre as apresentam de forma mais clara ao dirigirem-se ao publico leigo. Mas este problema está ligado a uma questão mais geral, o fato que, muitas vezes, as questões metodológicas - "o como sabemos deste tipo de coisa" - ficam em segundo plano já que são os resultados e conclusões dos cientistas que mais chamam a atenção.
Para compreendermos um pouco melhor o que tais quantidades significam, precisamos considerar as mudanças que ocorrem ao longo da evolução que acontece após a separação das linhagens. Os genomas mudam de muitas maneiras diferentes ao longo da evolução. Além das substituições de um nucleotídeo por outro, os SNPs (Single Nucleotide Polimorphism), pedaços maiores podem ser deletados ou duplicados, genes inteiros são perdidos e outros ganhos (bem como cópias adicionais de um mesmo gene e de sequências não codificantes), pedaços são invertidos ou translocados de um cromossomo para outro, quando não cromossomos inteiros são fundidos.
Adaptado de Phillippy (2006)
Cada uma desses eventos pode exigir uma métrica diferente e não faz sentido comparar o resultado de uma dessas medidas utilizada em uma comparação entre duas espécies, com o resultado de outra medida diferente para outras duas espécies. Por exemplo, a porcentagem de diferenças entre os genes de chimpanzés e seres humanos não pode ser confundido com a similaridade quantificada a partir do número de inserções e deleções que diferenciam os seres humanos dos camundongos, mas muitas vezes é exatamente esse tipo de comparação indevida é que é feita. Mas ao utilizarmos a mesma métrica consistentemente em várias espécies obtém-se sempre o padrão ramificado aninhado típico da evolução biológica, por exemplo, colocando os seres humanos e chimpanzés muito mais próximos do que qualquer um deles é de outro animal, como camundongo, Baiacu, Drosófila ou mesmo o gorila.
A principal questão, entretanto, é que é preciso, primeiro, comparar aquilo que é equivalente em ambas as linhagens estudadas. Mas para isso são necessários métodos específicos de comparação que permitam detectar o que é equivalente entre os genomas das espécies em estudo. Isso ocorre por que em um genoma uma porção específica pode ser alinhada com duas, três ou quatro do outro, por causa de eventos de duplicação em uma das linhagens e não na outra após a separação e ambas, em outro caso podem haver nucleotídeos faltando deixando as sequências com tamanhos diferentes mascarando as semelhanças ancestrais. O alinhamento entre sequências, ou mesmo alinhamento inteiros dos genomas, ou seja, o processo de mapeamento das regiões de um genoma em outro e as técnicas matemáticas e algoritmos computacionais responsáveis por isso, estão na base desses procedimentos.
Adaptado de Phillippy (2006)
No caso das comparações entre nossa espécie (Homo sapiens) e os chimpanzés (Pan troglodytes) – Homo-Pan - cerca de 95% das regiões de ambos os genomas podem ser mapeadas umas nas outras e são idênticas, apenas 5% de nosso DNA não tem equivalentes nos genomas dos chimpanzés. Acontece que se fizermos o mesmo tipo de comparação entre seres humanos e camundongos (Mus musculus) – Homo-Mus - esta identidade é de apenas 28%. Isto é, 72% das sequências não são nem comparáveis. Se deixarmos essas porções de lado e compararmos apenas as porções equivalentes de cada par de genomas (95% para Homo-Pan e 28% de Homo-Mus) a semelhança entre chimpanzés e seres humanos é de 99% de bases idênticas alinhadas e 69% entre seres humanos e camundongos. Isso mostra que se nos restringirmos às sequências comparáveis, a semelhança entre as diversas espécies de animais (não só Homo-Pan-Mus) é muito maior, muito provavelmente por causa da relevância funcional dessas regiões que são mantidas por intensa seleção negativa ou purificadora. Ainda assim as diferenças são proporcionais as distâncias evolutivas em acordo com as filogenias obtidas a partir de dados morfológicos, por exemplo.
Tabela adaptada da apresentação de Katherine Pollard disponível no youtube.
Boa parte dessas diferenças são observadas em porções não codificadoras dos genomas, ou seja, que não são expressas na forma de produtos gênicos, como proteínas. Essa conservação é ainda mais notável caso nos limitemos as comparações apenas de genes, ou seja, aquelas sequências que codificam polipeptídeos. Neste caso a identidade entre Homo-Pan é de cerca de 99% - das 97% de bases que podem ser alinhadas entre um genoma e outro – e entre Homo-Mus esta semelhança é menor, mas não tão menor como as comparações anteriores, sendo de 85%, mas aqui apenas 40% das bases podem ser alinhadas entre os dois genomas. Ao nos determos somente nos genes, cerca de 30% dos produtos protéicos dos genes de seres humanos possuem ortólogos idênticos em chimpanzés, ou seja, sequências exatamente iguais. Mas mesmo os demais genes têm sequências codificadoras extremamente parecidas com as nossas. Comparando um gene típico humano e um gene típico de Chimpanzé são esperadas em média diferenças em apenas 2 aminoácidos entre as duas espécies, um aminoácido diferente em cada linhagem.

Voltando às comparações mais gerais, outro ponto importante é que essas comparações referem-se apenas às diferenças envolvendo a troca de um nucleotídeo em um genoma por outro, em outro genoma, os chamados SNPs. Caso incluamos indels (inserções e deleções) essas diferenças aumentam, mas aumentam em proporção à distância evolutiva desde a separação das linhagens, mantendo o padrão filogenético típico. Esta, aliás, é outra fonte de confusão, inclusive alguns estudos indicam que a inclusão dos indels em comparações de distância é um tanto problemática devido algumas características estatísticas dessas comparações (veja por exemplo Cartwright, 2008).
Através dessas comparações entre espécies diferentes e entre indivíduos dentro de cada espécie, podemos não apenas estimar a divergência e a diferença entre as diversas espécies e populações, mas também investigar a fundo que tipos de mudanças foram estas e tentar correlacioná-las com especifidades morfológicas, desenvolvimentais, fisiológicas e comportamentais de cada linhagem, bem como estimar o efeito da seleção natural, deriva, migrações etc.
Este tipo de comparação traz outras surpresas, mas que serão abordadas em um outro post. Por enquanto, fica a mensagem que muitas vezes os números citados ao serem discutidas as diferenças entre as especies parecem confusos por que o contexto e os detalhes metodológicos por trás das comparações estão sendo ignorados. Informar efetivamente aquilo que está sendo comparado deveria ser a regra, assim poderíamos apreciar mais nossas diferenças e semelhanças e pensar de forma menos simplista sobre elas.
--------------------------
* Por que gafanhoto? Essa é uma dúvida que continua a me assolar, realmente não sei a resposta Nunca descobri um projeto de genoma do gafanhoto.
______________________________________
Referências e literatura recomendada:
Cartwright RA. Problems and solutions for estimating indel rates and length distributions. Mol Biol Evol. 2009 Feb;26(2):473-80. Epub 2008 Nov 28. PubMed PMID: 19042944; PubMed Central PMCID: PMC2734402.
Cohen J. Evolutionary biology. Relative differences: the myth of 1%. Science. 2007 Jun 29;316(5833):1836. PubMed PMID: 17600195.
Kehrer-Sawatzki H, Cooper DN. Understanding the recent evolution of the human genome: insights from human-chimpanzee genome comparisons. Hum Mutat. 2007 Feb;28(2):99-130. Review. PubMed PMID: 17024666.
Phillippy, Adam M [July 21th, 2006] Whole Genome Alignment TIGR Training Seminar.
Pollard KS. What makes us human? Sci Am. 2009 May;300(5):44-9. PubMed PMID: 19438048.
Watanabe H, Hattori M. [Chimpanzee genome sequencing and comparative analysis with the human genome.] Tanpakushitsu Kakusan Koso. 2006 Feb;51(2):178-87. Review. Japanese. PubMed PMID: 16457209.
Yoko K, Atsushi T, Hideki N, Asao F. [Comparative studies on human and chimpanzee genomes]. Tanpakushitsu Kakusan Koso. 2005 Dec;50(16 Suppl):2072-7. Review. Japanese. PubMed PMID: 16411432.
Créditos das figuras:
JEAN-FRANCOIS PODEVIN/SCIENCE PHOTO LIBRARY
JEAN SOUTIF/LOOK AT SCIENCES/SCIENCE PHOTO LIBRARY