Informação, biologia e evolução Parte III
Chegamos à terceira parte da nossa série de posts sobre a teoria da informação e suas aplicações na biologia e especialmente na evolução, que iniciaram-se nos posts anteriores 'Informação, biologia e evolução: Parte I' e "Informação, biologia e evolução Parte II". Neste novo post continuamos a falar sobre como podemos medir a informação e ganhos nesta quantidade ao longo da evolução por seleção natural.
Esta abordagem permite aos cientistas investigarem a fundo como biomoléculas interagem umas com as outras e como elas ajustam seus estados. Os estados e os padrões das moléculas, desviando das abordagens mais tradicionais da bioquímica, podem ser medidos usando-se o formalismo da teoria da informação molecular. A teoria de informação de Shannon da forma como emprega por Schneider nos permite calcular a informação média nos sítios de ligação de DNA de qualquer proteína associada ao controle genético, como um fator de transcrição, por exemplo. Podendo esta análise ser estendida a investigação de seus sítios de ligação individuais. De fato, uma fórmula equivalente à fórmula de Shannon para a capacidade do canal pode ser utilizada em sistemas biomoleculares, possibilitando que calculemos a eficiência com que a proteína liga-se aos sítios. De acordo com os resultados dos estudos realizados pelo grupo de Schneider, esta eficiência frequentemente está por volta de 70%, sugerindo que estes sistemas evoluíram para funcionar na capacidade do canal. Estes resultados sugerem que devemos poder construir sistemas de comunicação molecular que são tão robustos como seus equivalentes tecnológicos convencionais [1]. Mas como podemos saber disso? Antes de responder esta questão precisamos voltar ao básico da biologia molecular e compreender como funciona a regulação gênica.
Ligando e desligando genes:
A regulação de um gene requer que uma proteína ligue-se a sítios específicos na sequência de DNA associada a sequência codificadora deste mesmo gene, de modo que sua transcrição seja ativada ou inibida. Lembre-se que existem apenas quatro bases de nucleotídeos no DNA (denominadas A, C, G e T) de modo que os sítios de ligação (ou seja, as regiões nas quais as proteínas regulatórias ligam-se) podem ser representadas pelo padrão destas quatro letras [1].
Um ponto importante é que uma proteína é uma molécula finita. Isso significa que ela pode ligar-se a apenas um segmento de DNA por vez que, normalmente, tem algo em torno de 10 a 20 pares de bases de comprimento. Também é importante compreendermos que o padrão que permite a ligação de uma dada proteína a um sítio não é representado exatamente por uma mesma sequência de bases. Isso implica que algumas das posições na sequência de nucleotídeos podem variar, ou seja, diferentes nucleotídeos podem ser ali aceitos, sem que isso faça diferença para a função em questão. Claro, outras variações podem estar associadas a funções diferentes ou mesmo a perda de função [1].

O que a teoria da informação permite é medir 'quanto padrão' existe em um conjunto de sítios de ligação. Por exemplo, veja o caso da proteína Fis que normalmente existem na faixa de apenas 100 moléculas em uma célula bacteriana em inanição. Porém, basta que a célula encontre nutrientes e este número aumenta para mais de 50.000 moléculas. Essa elevação no numero de moléculas acarreta a alteração da regulação de muitos genes controlados pelas moléculas de Fis. Na Fig. 1 podemos observar vários sítios de ligação da proteína Fis, identificados experimentalmente, todos localizados no comecinho do próprio gene que codifica a proteína Fis [pdb 3FIS] [1].
Sabemos que quando não há muitas moléculas de Fis na célula, o gene Fis está ativo, induzindo a expressão de mais moléculas Fis. Porém, quando essas moléculas ocupam os sítios de ligação do próprio gene Fis isso induz uma diminuição da expressão da proteína Fis, ou seja, a um processo de retroalimentação (feedback) negativo. A pergunta é 'Como é que Fis encontra estes sítios no genoma? ' [1].
Os logos de sequência:
Vejamos a figura abaixo. Só de olhar podemos perceber que as sequências são todas bastante diferentes umas das outras, mas a região central (ao redor do zero) tem muitas bases A e T, enquanto que a posição -7 é quase sempre um G, enquanto a posição 7 é quase sempre um C.

Na figura acima estão dispostas, umas em cima das outras, as sequências alinhadas (no topo) e e os logos de sequência (em baixo) para os sítios de ligação de DNA da proteína de Fis da bactéria Escherichia coli. A barra de números ('numbar') no topo deve ser lida verticalmente. Ela mostra a gama de -10 a 10 para posições em todo o sítio. Abaixo da numbar estão os 6 sítios Fis e suas sequências complementares. Ambas são indicadas, uma vez que ligam-se ao Fis como um dímero. À direita está a informação individual de cada sequência. Os logos de sequência, na parte inferior da figura, mostram a conservação da sequência no conjunto de dados completo, que consiste em 60 sítios Fis e seus complementos. A altura de cada letra (nucleotídeo) é proporcional à frequência da base naquela posição e as letras estão ordenadas. A altura de toda a pilha de letras é a informação, medida em bits. A possível variação da altura devido aos efeitos de pequenas amostras é mostrado pelas barras de erro. O pico da onda senoidal mostra onde o sulco maior do DNA faz interface com a proteína. De acordo com Schneider, isso pode ser usado para inferir alguns aspectos da forma como os contatos entre proteína e DNA se dão [1].
O grupo de Schneider desenvolveu uma maneira de visualizar este tipo de padrão, através dos chamados logos de sequência. Eles mostram que diferentes partes do sítio são conservadas de maneiras distintas. A Teoria da Informação aplicada a biologia molecular permite caracterizar estes sítios com precisão, mas como exatamente isso é feito ? [1].
Medindo a informação (Rsequência e Rfrequência):
Primeiramente sabemos que antes que uma molécula da proteína Fis tenha se ligado ao DNA lá podem estar qualquer uma das quatro bases possíveis em cada posição específica da sequência. Então, lembrando do post anterior e, acompanhando a ideia de Shannon, podemos dizer que a proteína estaria 'incerta' em relação a qual base estaria a sua frente em uma quantidade que pode ser medida através do log2 (4) = 2 bits. Porém, assim que a proteína esteja ligada a um sítio para a Fis, a incerteza em relação ao que está ligada será menor; menor em diferentes níveis, dependendo do caso específico. Isso é assim porque as bases variam mais ou menos em diferentes posições. Por exemplo, no caso das posições -7 e +7 quase sempre elas encontrarão as mesmas bases, portanto a incerteza nestas posições será próxima a log2 (1) = 0 bits. Mas aqui é preciso bastante cautela. Isso é apenas uma aproximação. Existem outras bases nessas posições, mesmo que a frequência delas seja bem baixa. Assim, a incerteza não é zero. Felizmente, podemos calcular a incerteza em relação à frequência de símbolos, como mostrou Shannon [1]. Como vimos no post anterior ("Informação, biologia e evolução Parte II"):

onde fb, l são, respectivamente as frequências das bases b ∈ {A, C, G, T} na posição l no alinhamento de sequências [1].
Aqui precisamos tomar vários cuidados. Primeiro de tudo, como não existe um número infinito de sequências, como a teoria de Shannon exigiria, substituímos as probabilidades das bases por suas frequências. De acordo com Schneider, isso demanda uma correção para o tamanho pequeno da amostra [1, 2]. Segundo, a incerteza, que às vezes chamado de "entropia de Shannon", não é igual a entropia da termodinâmica e por isso este termo não deve ser usado, mesmo porque em um certo momento a entropia termodinâmica entrará na discussão já que ela está envolvida nos processos físico-químicos associados a ligação entre biomoléculas. Terceiro, é preciso que fique claro que a incerteza dada pela Eq. (1) não é a informação, como Schneider sempre enfatiza e como já discuti no post anterior ("Informação, biologia e evolução Parte II").
Recapitulando. Antes que a molécula de Fis ligar-se ao sítio ela está em algum lugar no DNA genômico e tem 2 bits de incerteza. Porém, logo após a ligação, essa incerteza é reduzida, H(l). Aqui voltamos a outra questão importante, como Shannon percebeu, o receptor de uma mensagem terá menos informação por causa do ruído no sinal, o que faz com que a informação recebida R seja menor do que a incerteza transmitida H(x):
Shannon chamou Hy(x) (a 'entropia condicional') de equivocação. Ela mede a ambiguidade média do sinal recebido [1].
De modo semelhante, H(l) é a ambiguidade "observada" pela proteína de ligação ao DNA uma vez que ela tenha se ligado a um sítio, o que faz com que a informação do sítio de ligação seja a incerteza antes da ligação subtraída daquela após a ligação:

Schneider mostra isso ao criar um logo de sequência, ilustrado na parte inferior da figura 1. Nele a Rsequência (l) em todo o sítio de ligação é plotada e esses valores são utilizados para variar as alturas de pilhas de letras que representam a abundância relativa de cada base em cada posição do sítio de ligação. Os logos de sequência são amplamente utilizados em biologia molecular para representar os padrões de DNA, RNA e proteínas. Com a variação de uma parte de um sítio de ligação normalmente é independente das outras partes, podemos somar os valores de informação em todas as posições de um sítio de ligação para encontrar a totalidade da informação do sítio de ligação. Essa é a "área" sob o logo de sequência que é encontrada somando-se as alturas de todas as pilhas de letras [1].
Compreendemos melhor a importância da Rsequência ao compararmos com uma outra medida da informação. Schneider explica que, como em muitos casos (mas não no caso da Fis), o número de sítios de ligação de uma proteína ao genoma é conhecido, o problema enfrentado pela proteína de ligação ao DNA é o de localizar um número de sítios de ligação, γ, tendo em vista todo o comprimento do genoma, medido em pares de base, G. Isso significa, em termos da teoria da informação, que a incerteza antes de acontecer a ligação a um dos sítios é log2 L, enquanto que a incerteza após ter ocorrido a sido ligação é reduzida para log2 γ. Então, como acontece com o cálculo da informação nos sítios de ligação, as informações necessárias para encontrar os sítios de ligação é:
Sítios de ligação naturais têm Rsequências próximas às Rfreqquências. Isso quer dizer que a informação usada dos sítios de ligação é apenas suficiente para localizar os sítios de ligação no genoma. Uma vez que o tamanho do genoma e o número de sítios de ligação são mais ou menos fixados pelo ambiente, a informação nos sítios de ligação, Rsequência, tem de evoluir para o necessário, ou seja, a Rfrequência, o que foi verificado por um modelo de computador chamado Ev. Existe uma versão em Java que pode ser executada em seu próprio computador, disponível aqui. Este incrível resultado foi publicado em 2000 em um artigo da revista científica Nuclear Acid Research [2] e inspirou um vídeo criado pelo usuário cdk007 e que foi agora traduzido por mim e pode ser visto aqui.
O vídeo explica de maneira bem simplificada o que é informação, de acordo com a teoria de Shannon, e como ela pode ser aplicada à biologia molecular e à evolução, como foi feito no artigo de Schneider [2]. No vídeo, o autor usa algumas convenções diferentes das de Schneider, que eu mantive na versão traduzida. Ao invés de 'H' é usado a letra 'U' de 'Uncertainty' para a entropia de Shannon e 'I', de 'Information', ao invés de 'R'.
----------------------------------
Referências:
Schneider TD. A brief review of molecular information theory. Nano Commun Netw. 2010 Sep;1(3):173-180. doi: 10.1016/j.nancom.2010.09.002
Schneider TD. Evolution of biological information. Nucleic Acids Res. 2000 Jul 15;28(14):2794-9. doi: 10.1093/nar/28.14.2794