Informação, biologia e evolução parte II: Informação nunca é demais.
Em post anterior comentei sobre às aplicações da teoria da informação de Shannon na biologia molecular e aludi algumas de suas implicações na biologia evolutiva. Thomas D. Schneider um biólogo teórico especializado na teoria de Shannon e na sua extensão para a biologia desenvolveu uma plataforma capaz de simular os processos de replicação, mutação e seleção, às bases da evolução adaptativa, e quantificar como a informação, rigorosamente definida e quantificada por uma métrica teoricamente sólida e adequada aos sistemas biomoleculares, varia durante o processo de evolução, mostrando, de forma simples e elegante, como esta quantidade cresce através da seleção natural de mutações aleatórias.
O programa Ev e sua versão em java Evj é a plataforma desenvolvida e utilizada por Schneider e seu grupo no NCI. No abstract do artigo sobre o Ev, Schneider resume a situação:
Como os sistemas genéticos adquirem informação por processos evolutivos? Responder a esta pergunta exige precisamente uma medida quantitativa robusta da informação. Felizmente, há 50 anos, Claude Shannon definiu a informação como uma diminuição na incerteza de um receptor. Para sistemas moleculares, a incerteza está intimamente relacionada à entropia e, portanto, tem ligações claras com a Segunda Lei da Termodinâmica. Estes aspectos da teoria da informação têm permitido o desenvolvimento de um método simples e prático de medir a informação em sistemas de controle genético. Aqui, este método é usado para observar o ganho de informação nos sítios de ligação para "proteína" artificial em uma simulação de computador da evolução. A simulação começa com zero de informação e, como nos sistemas genético naturais, a informação medida nos sítios de ligação totalmente evoluído é próxima ao necessário para localizar os locais no genoma. A transição é rápida, demonstrando que o ganho de informações pode ocorrer por equilíbrio pontuado.(Schneider, 2000)
A captura acima ilustra o applet em Java escrito por Paul C. Anagnostopoulos do programa Ev.
Neste artigo, Schneider utiliza a abordagem matemática já bem estabelecida da teoria da informação para medir o conteúdo de informação de sítios de ligação de nucleotídeos e para rastrear as mudanças nesta quantidade como forma de avaliar o grau de evolução destes sítios de ligação.
Como já explicado em post anterior, as medidas de Schneider envolvem a comparação entre duas quantidades a Rsequência e Rfrequência que mostram que existe uma conexão sutil entre o padrão dos sítios de ligação, o tamanho do genoma e o número de sítios. Em relação ao potencial de mudanças nos locais de ligação, o tamanho do genoma completo é aproximadamente fixo durante longos períodos de tempo, já que mesmo que dobre de tamanho (mantendo o número de sítios constantes), a Rfrequência só iria mudar um pouco, por isso a medida é completamente insensível. Da mesma forma, o número de sítios é aproximadamente fixo por causa das funções fisiológicas que precisam ser controlados pelo reconhecedor. Então a Rfrequência é essencialmente fixa durante longos períodos de evolução. Por outro lado, Rseqüencia pode mudar rapidamente e poderá ter qualquer valor, uma vez que depende dos detalhes de como o reconhecedor interage com os sítios de ligação nas cadeias de ácidos nucleicos e, estes contatos pequenos numerosos, podem sofrer rapidamente mutações. Então a pergunta passa a ser como é que Rseqüencia vem a ser igual a Rfrequência? É preciso que Rsequência possa começar do zero e evoluir até Rfreqüência, ou seja, a informação necessária para o reconhecimento dos sítios deve ser, portanto, capaz de evoluir a partir do zero.