O ruído por trás do ENCODE Parte 1
As repercussões a divulgação dos resultados do ENCODE continuam e vários pesquisadores que trabalham com as partes do DNA consideradas 'sucata' (mais sobre isso adiante) - isto é, elementos genéticos móveis ou elementos transponíveis (TEs), como retroposons e transposons (funcionais ou 'quebrados'), sequências repetitivas, retrovírus endógenos (ERVs), pseudogenes etc – têm se manifestado contra a hype incitada pelos artigos e releases de imprensa e pelas as discussões nos blogs de não-especialistas que abraçaram a ideia simplista de que este era o fim da história do DNA sucata. Como Mark Twain já havia dito “Parece-me que as notícias sobre a minha morte são muito exageradas” e assim parece ser o caso do epitáfio do 'DNA sucata'.
A noção estendida de função adotada nos ensaios conduzidos pelos participantes do consórcio ENCODE buscam apenas regiões transcritas em que proteínas liguem-se ou que tenham sido quimicamente modificadas diferencialmente, mas nada disso é uma evidência inequívoca de que aqueles trechos sirvam para algo de um ponto de vista mais específico para a sobrevivência do organismo e muito menos que tenha sido produzido pelos seus efeitos favoráveis na sobrevivência e sucesso reprodutivo nos indivíduos que os portassem, mas esse não parece ser o caso ou pelo menos ainda não temos evidências diretas disso.
Como já havia comentado, as melhores estimativas são de que 20% das regiões do genoma analisadas parecem realmente ter uma função em sentido estrito, o que é compatível com as estimativas anteriores levando-se em conta os estudos sobre DNA sucata [Veja por exemplo esta comparação que T. Ryan Gregory faz de uma entrevista do principal investigador do artigo que resume os achados do ENCODE Ewan Birney e o primeiro artigoa usar o termo 'DNA sucata' e a discuti-lo, escrito por David Commins em 1972]. Este ponto é importante pois muitos dos posts, comentários e releases tem simplesmente apresentados a situação como se a maioria dos cientistas pensasse que 95% do DNA em nossos genomas não servia para nada ou que tivesse uma função desconhecidas, mas isso é simplesmente falso, como procurei mostrar em artigo anterior aqui em nossa página, pelo simples fato que já se sabia que parte do DNA não-codificante estaria envolvido com regulação especificamente com sítios de ligação para proteínas chamadas fatores de transcrição ao DNA ou como elementos estruturais importantes para a organização e movimento dos cromossomos, associados por exemplo as imediações dos centrômeros e telômeros, além de elementos espaçadores.
Além disso, não se imaginava que o resto do genoma fosse bioquimicamente inativo, isto é, não 'fizesse nada', mas apenas que uma boa parte não 'servisse para nada' em relação as necessidades do organismo portador, comportando-se como formas de DNA egoístas, vivendo como comensais ou mesmo parasitas genômicos. Porém, desde sempre já se imaginava que pelo menos alguns desses elementos genéticos móveis já deveriam ter sido domesticados e portanto estariam mais para simbiontes, tendo sido recrutados para uma função específica, como dar origem a novos genes ou sistemas de regulação ou ter um papel mais amplo como quem sabe um sistema de coesão molecular ou algo assim. O que muitos acreditavam e acreditam até hoje é que em muitos casos o que manteria estes trechos de DNA egoístas ou simbiontes seria o alto custo em removê-los o que provavelmente dependeria de vários detalhes como a eficiência da seleção natural e sua vinculação com os tamanhos efetivos da população, como é indicado pelo fato dos genomas de microrganismos procariontes serem bem mais enxutos do que o os dos eucariontes, especialmente os multicelulares.
Mas o fato que realmente tira o sono dos pesquisadores e que torna qualquer explicação funcional simples e direta e que sirva amplamente para as porções de 'DNA sucata' na maioria dos organismos é a imensa variação do seu conteúdo entre as espécies. Isso é ilustrado pelo chamado 'teste da cebola' proposto por T. Ryan Gregory que deixa claro o tipo de problema que está diante dos que negam simplesmente a ideia do DNA sucata e que boa parte dele esteja lá não por que nos sirva para algo específico, mas por que eles funcionam muito bem se replicando e se mantendo e por que em muitos casos removê-los é difícil e evolutivamente custoso. Este processo associa-se também intimamente ao 'enigma do valor C' (antes denominado 'paradoxo do valor C') que é a falta de correlação restrita entre o tamanho dos genomas e todas as outras medidas de complexidade organísmica, como exceção de algumas coisas como volume celular e em algumas circunstâncias a velocidade de divisão celular que depende da quantidades de coisas a serem duplicadas.
Como Sidney Brenner teria dito, existe uma diferença entre lixo e sucata, pois lixo é o que você se joga fora e sucata é o que você mantém. Este mote tem me feito evitar a tradução comum de 'Junk DNA' por 'DNA lixo', preferindo e insistindo na tradução 'DNA sucata' que apesar da conotação de acumulo de tranqueira não necessariamente atribui as vastas quantidades de DNA não-codificante, não-estruturais e não-regulatórios, a condição de desinteressante ou mesmo inútil. Pérolas podem ser esconder entre a sucata e boa parte da evolução biológica a longo prazo pode depender direta ou mais provavelmente indiretamente do que ocorre nestas vastas terras de ninguém que acumulam-se nas células dos organismos vivos.
Além do mais, sem uma definição mais restrita de função as coisas ficam confusas. Aproveitando as metáforas, arrisco-me a produzir a minha própria para ilustrar a questão: Em um ferro-velho, ao procurar por uma peça específica, alguém pode puxar uma tranqueira candidata a peça desejada que estava embaixo de uma pilha de sucata fazendo toda a pilha colapsar e cair em cima do escritório do dono do ferro-velho que de pronto poderia dizer: "Nossa vc foi puxar logo a peça que servia para evitar que meu escritório fosse destruído" O tipo de definição adotada pelo ENCODE permite este e outros usos que são muito diferentes daquilo que muitos pesquisadores interessados na evolução genõmica e na dinâmica de certas porções não-codificantes do genoma estão interessados e tendem a referir-se por 'sucata', na falta de um termo melhor [Veja “Sobre sucata, lixo, DNAs egoístas, comensais e simbiontes:”]
Após a tradução do ótimo artigo de Michael Eisen, “Uma teoria neutra da função molecular” dois outros artigos de blog de dois outros cientistas, 'ENCODE says what?", "On The Neutral Sequence Fallacy", respectivamente, escritos por Sean R. Eddy e Casey Bergmanque continuam a destrinchar o recente hype sobre o ENCODE. Eddy afirma em seu artigo:
Uma descoberta chave que explicou satisfatoriamente o paradoxo C-valor foi a descoberta de que genomas, especialmente de origem animal e genomas de plantas, contêm um grande número de elementos transponíveis (móvel) que se replicam por si mesmos, muitas vezes à custa (geralmente leve) de genoma do seu hospedeiro . Por exemplo, cerca de 10% do genoma humano é composto por cerca de um milhão de cópias de um pequeno elemento móvel chamado Alu. Outra grande fração do genoma é composto por um elemento móvel denominado L1. Transposons são relacionados a vírus, e pensamos que em sua maior parte, eles são parasitas na natureza. Eles infectam um genoma, replicando-se, espalhando-se e multiplicando-se, eventualmente morrem, sofrem mutações e são erodidos, deixando suas seqüências de DNA. Às vezes, quando ago como uma Alu replica-se em saltos, em um novo lugar em nosso genoma, ela quebra alguma coisa. Normalmente (em parte porque o genoma é grande parte não-funcional) a Alu nova apenas pula em outro lugar na sucata e não tem qualquer efeito sobre nós.
Assim, verifica-se que, quando olhamos para todos esses diferentes tamanhos de genoma, quase toda a variação de tamanho intrigante é explicado por genomas com diferentes "cargas" de elementos transponíveis. Algumas criaturas, como baiacu, têm apenas baixas cargas de transposons. Algumas criaturas, como salamandras, peixes-pulmonados, amebas, milho e lírios, são carregados com um enorme número de transposons. Da mesma forma, o genoma humano é anotada como tendo cerca de 50% seqüência derivadas de transposons - no ponto certo da fronteira de 50/50 para que alguém possa dizer "o genoma humano é principalmente sucata" e que alguém poderia dizer "o genoma humano não é principalmente sucata ".
Sean R. Eddy vai adiante e deixa claro que DNA não-codificante, aquela parte que não está diretamente associada a codificação de proteínas e mesmo pequenos RNAs regulatórios que totalizariam entre 21000 e 22000 genes (veja os artigos Gene number and complexity, de T. Ryan Gregory, "False History and the Number of Genes"de Larry Moran e "Human genome at ten: Life is complicated" de Erika Chck Hayden), que talvez equivalham a 1 ou 2% do genoma, é em parte sucata (o que mesmo assim não diz que esta porção seja inativa bioquimicamente), mas também parte regulatória, como também já havíamos comentado, e, claro, também parte desconhecida:
É fundamental compreender que o DNA "não codificante" não é sinônimo de “DNA. Sucata”. A visão atual do genoma humano, que o ENCODE agora confirma sistemática e amplamente e estende, é que cerca de 1% é ligado a codificação de proteínas, talvez com cerca de 20.000 "genes" em média com cerca de 1.500 bases de codificantes cada (onde o conceito de um "gene" é amorfo, mas útil; sabemos que um quando vemos um). Os genes são ligados e desligados por regiões reguladoras de DNA, tais como promotores e potenciadores - como tem sido descoberto ao longo de 50 anos, começando com a forma como vírus bacterianos funcionam. Em animais, como os seres humanos, a maioria das pessoas (ok, eu) diria que há talvez 10-20 regiões regulatórias por gene, cada uma talvez com 100-300 bases de comprimento,então, muito aproximadamente, talvez algo da ordem de cerca de 1000-6000 bases de informação reguladora não codificante por cada 1500 bases codificantes de por gene. Eu só estou dando a noções superficiais e aproximadas aqui porque é realmente muito difícil de calcular esses números exatamente, o nosso conhecimento atual dos detalhes de seqüências de DNA reguladoras é dolorosamente incompleto. Isso é algo que ENCODE está tentando a ajudar a descobrir, de forma sistemática, e onde está uma grande parte do valor real de ENCODE. O ponto é, nós já sabíamos que havia provavelmente pelo menos como DNA regulatório tanto quanto a DNA codificante, e provavelmente mais, nós simplesmente não temos uma compreensão satisfatória de tudo isso ainda, e nós pensamos que precisávamos de um projeto ENCODE para avaliar isso de forma mais abrangente
Fazendo coro a Eisen, Eddy propõem a ideia altamente importante uma vez que dentro da definição de função usada pelo ENCODE encaixam-se perfeitamente boa parte do DNA já anotado como sucata. Por isso ele propõem o seguinte experimento de pensamento:
Se você fizer um pedaço de sucata por si mesmo - uma sequência de DNA completamente aleatória! - E deixasse o cair no meio de um gene humano, o que aconteceria com ele? Seria transcrito, porque o aparelho de transcrição para que o gene passaria rasgando pelo seu DNA sucata. O ENCODE chamaria o RNA transcrito de seu DNA sucata aleatório "funcional", por sua definição técnica. E se ainda não fosse transcrito, seria porque ele agiu como um tipo diferente de elemento funcional (seu DNA aleatório poderia criar acidentalmente um terminador da transcrição).
A partir daí Eddy propõem a ideia de “Projeto do Genoma Aleatório”:
Assim, a-ha, há a questão real. A experiência que eu gostaria de ver é o Projeto Genoma Aleatório. Sintetizar um cromossomo de cem milhões de bases de DNA totalmente aleatório, e fazer um projeto ENCODE nesse DNA. Façam suas apostas: será que vai ser transcrito? Ligado por proteínas de ligação ao DNA? A cromatina será marcada?
O Projeto Genoma Aleatório é a hipótese nula, uma peça essencial para a compreensão de que seria ótim ter, antes que todos lutássemos sobre a interpretação dos dados do ENCODE sobre genomas. Para DNA aleatório (DNA não derivado de transposons, nem codificante e nem regulador), qual é a a nossa expectativa nula para todos essas características "funcionais" para o ENCODE, devida simplesmente ao acaso, em DNA aleatório?
Uma importante mensagem deixada por Eddy é que a evolução ocorre, muitas vezes, a partir do que há sucata:
Mesmo se você fizer o Projeto Genoma Aleatório e descobrir uma fração considerável de uma sequência totalmente aleatória "funcional", transcrita e ligada e cuja cromatina é marcada, isso de alguma forma diminuiria a sua visão do genoma humano?
Pessoalmente, eu não acho que nós podemos entender genomas, a menos que tentemos reconhecer todos os diferentes ruidosos, processos neutros evolutivos estão ocorrendo nele. Sem "ruído" - sem um fundo de transcrição específico, mas não funcional, ligação e marcação - a evolução teria menos tração, menos de material de novo para agarrar e refinar e selecionar, para torná-lo mais e mais útil. Genomas são feitos de seqüência recondicionadas, emprestadas do que seja que estivesse por lá, incluindo o "DNA lixo" de transposons invasores.
Essas ideias ecoam os argumentos de Eisen sobre a necessidade de uma teoria neutra da função espelhando a teoria neutra da evolução molecular de Motoo Kimura que depois foi estendida no modelo quase-neutro por Tomoko Otha. É neste ponto que alguns alertas muito importantes devem ser feitos e que estão muito bem aprensados e esmiuçados por Casey Bergman em seu, também excelente e longo, post On The Neutral Sequence Fallacy, em que o cientista nos explica o que realmente é o modelo neutro de Kimura e Otha e por que precisamos separar a 'restrição funcional' ou a falta dela de certas sequências - isto é, o fato de certas sequências possuírem certos limites além dos quais elas perdem suas funções essenciais e passam a ser alvo da seleção negativa e purificadora, enquanto outras não os possuem por serem não funcionais - da questão da neutralidade seletiva de certas variantes de uma mesma sequência, ou seja, o fato de que certas mutações ou alelos de uma determinada sequência de DNA são equivalentes em termos da aptidão conferida ao organismo que as portam, sendo assim igualmente, ou pelo menos quase equivalentes, funcionais, mesmo que as sequências em si seja funcionalmente restritas no sentido de não poderem variara completamente ou mesmo deixar de existir:
Apesar de sua ampla adoção, ao longo dos últimos dez anos, tem havido um aumento preocupante do abuso de terminologia sobre a teoria neutra, que vou chamar aq
ui coletivamente a "Falácia da Sequência Neutra" (inspirado na Falácia do Ornitorrinco de T. Ryan Gregory). A Falácia Sequência Neutra surge quando os conceitos distintos de restrição funcional e neutralidade seletiva são confundidos, levando à descrição equivocada de seqüências funcionalmente sem restrições como sendo "neutras".A Falácia, em suma, é a de atribuir o termo neutro para uma sequência biomolecular particular.
Este tópico será abordado em breve e nos permitirá voltar a um das principais ideias que enriqueceram a biologia evolutiva moderna no período pós síntese, a teoria neutra da evolução molecular e os modelos e teorias dela derivadas.
______________________________________________________
Para saber mais veja os postos anteriores "Uma teoria neutra da função molecular:", Decodificando os novos resultados do ENCODE e “Sobre sucata, lixo, DNAs egoístas, comensais e simbiontes:”
Créditos das Figuras:
TEK IMAGE/SCIENCE PHOTO LIBRARY
JAMES KING-HOLMES/SCIENCE PHOTO LIBRARY
LAURENT DOUEK/LOOK AT SCIENCES/SCIENCE PHOTO LIBRARY