Informação, biologia e evolução: Parte I
Certos termos e conceitos, que fazem parte de nosso dia a dia e tomamos como óbvios, são, na verdade, multifacetados, podendo ser bastante complicados de definir, a não ser em contextos operacionais muito limitados. Talvez nenhum outro como o termo (e os conceitos por trás do termo) 'informação' exemplifique melhor esta situação. Claude Shannon, o pioneiro da chamada 'teoria da informação' - uma refinada e poderosa abordagem matemática que acaba por definir um dos muitos usos deste termo – era bastante cauteloso a este respeito:
A palavra "informação" recebeu significados diferentes dados por vários escritores no campo geral da teoria da informação. É prováv
el que, pelo menos, um certo número destas abordagens seja suficientemente útil em certas aplicações para que mereçam mais estudo e reconhecimento permanente. Dificilmente poderíamos esperar que um único conceito de informação represente de forma satisfatória as numerosas aplicações possíveis deste campo geral. [apud 1] [ Foto: ESTATE OF FRANCIS BELLO/SCIENCE PHOTO LIBRARY]
Warren Weaver, co-autor, com Shannon, de um dos principais artigos sobre a TIS, propunha separar as discussões sobre informação em três classes principais de problemas [1]:
1) Problemas técnicos com a quantificação da informação que são tratados pela teoria de Shannon (e pelas versões algorítmicas da TI modernas desenvolvidas por Kolmogorov, Chaitin, etc);
2) Problemas semânticos relativos ao significado e à verdade; e, por fim:
3) Problemas sobre o impacto e a eficácia da informação sobre o comportamento humano.
Estas três classes de questões, entretanto, são continuamente misturadas e isso, em algumas situações, podem causar grande confusão, especialmente, nas ciências biológicas e, particularmente, nos debates entre cientistas e criacionistas, principalmente, os do Design Inteligente que usam e abusam do termo 'informação' como parte de seu ataque retórico a moderna biologia evolutiva [Veja aqui].
Informação e biologia:
O jargão informacional é disseminado em algumas áreas mais óbvias das ciências da vida, como em campos, como a etologia, psicologia comparativa e nas diversas áreas da neurobiologia que investigam a percepção, cognição e a comunicação entre animais. Porém, desde os anos 50 e 60, com a descoberta da estrutura em dupla hélice do DNA e o desvendamento dos processos de replicação e transcrição do DNA e da síntese proteica, que o termo 'informação' adquiriu um papel proeminente nas ciências biológicas em disciplinas bem fundamentais. Áreas como a biologia molecular e a genética são impregnadas do jargão 'informacionalistas' e outras, bem mais recentes, como a bioinformática, trazem o conceito em seu próprio nome.
Os biólogos e filósofos da biologia dividem-se quanto a esta situação, com muitos considerando muito úteis os diferentes conceitos de informação em algumas áreas, e não tanto em outras, passando pelos mais entusiastas, que consideram que, além da 'matéria' e da 'energia', a 'informação' (geralmente em seu sentido mais quantitativo) deve ser parte essencial na descrição da natureza, chegando àqueles que consideram o jargão da informação e os vários termos a eles atrelados (a não ser em domínios muito específicos) tremendamente problemáticos e mesmo enganadores, principalmente, caso usados para descrever as relações entre organismo, genes e ambiente [2, 3]., obscurecendo a dinâmica de interação dos seres vivos.
Nas diversas disciplinas que constituem as ciências biológicas, encontramos uma mistura de empregos mais precisos e quantitativos do termo, em um extremo, e de usos mais analógicos e metafóricos, em outro, além de algo no meio do caminho, onde formas de descrever sistemas e relações entre eles, que podem ser muito úteis, são derivadas, esquematicamente, das ideias de Shannon, mas sem tanto rigor. Esta diversidade de usos acaba por tornar o termo presa fácil nas mãos dos criacionistas que insistem em apropriar-se de termos como 'informação', 'código', programa' etc e apresentá-los, literalmente, como evidências de um 'conhecedor', 'programador', 'codificador' mor, sobre-humano, ignorando as diferenças entre uso literal de termos dos usos deles como meros descritores operacionais ou mesmo como simples analogias e metáforas.
O maior problema, entretanto, é a contínua confusão da primeira classe de questões discutidas por Weaver com muitas variantes das outras duas classes que fazem com que o domínio quantitativo e preciso da teoria de Shannon seja frequentemente confundido com as analogias e metáforas mais típicas dos outros níveis, misturando as interpretações causais/correlacionais com as interpretações que baseiam-se no 'conteúdo semântico', algo bem mais difícil de definir e, portanto, de quantificar [1]. Os criacionistas são pródigos neste quesito, montando seus argumentos em cima dos usos metafóricos e menos precisos dos termos ligados a informação, sugerindo que seu mero uso implicaria mais do que analogia ou a utilidade na análise de certos aspectos dos sistemas, ao mesmo tempo que fingem que esta conclusão seria devida a uma análise das relações quantitativas implicadas pelas definições mais formais e precisas dos termos. Já abordei esta questão algumas vezes, em respostas de nosso tumblr [veja, por exemplo, aqui e aqui] e em nosso antigo formspring, mas até hoje não havia escrito artigos mais básicos sobre como o conceito de informação é costumeiramente abusado pelos criacionistas do Design Inteligente.
Então, a partir deste post, pretendo começar uma série dedicada a discutir estas questões, começando por explicar como a teoria da informação é empregada na biologia molecular e na biologia evolutiva e, como as evocações desta teoria pelos criacionistas (ou seja, sugerido que ela minaria a possibilidade de evolução por mecanismos naturais) não tem qualquer tipo de lastro na realidade. Esta série de posts é complementar a outros dois que eu escrevi e que lidam com aspectos mais 'semânticos' e, como analogias, mais triviais do termo informação aplicado à biologia, ou seja, sobre como 'nova informação genética', na forma de novos genes e proteínas, é adquirida por sistemas biológicos ao longo da evolução por meio de mecanismos mutacionais e processos evolutivos bem naturais e, cada vez, melhor compreendidos [Veja “A origem de nova informação genética. Parte I” e “A origem de nova informação genética. Parte II”], além de outros posts sobre complexidade biológica [veja "Complexidade por subtração da complexidade”, “O preço da complexidade”, “Termodinâmica e evolução: O velho argumento da segunda lei”], por sinal, outro conceito, muito deturpado pelos criacionistas, ao qual também deverei voltar nesta série de posts sobre teoria da informação, biologia e evolução.
Então, o que é informação?
Como nos explica Sterelny e Godfrey-Smith [2]:
Uma maneira comum de começar a organizar o problema é fazer uma distinção entre dois sentidos de "informação", ou dois tipos de aplicação dos conceitos de informação. Um destes é sentido fraco ou mínimo, e o outro é mais forte e mais controverso. No sentido mais fraco, as conexões entre os eventos informativos ou variáveis envolvem não mais do que correlações normais (ou talvez correlações que são "não-acidentais" em algum sentido físico envolvendo causalidade ou leis naturais). Um sinal transporta informação sobre uma fonte, neste sentido, se pode prever o estado da fonte do sinal. Este sentido de informação está associada com Claude Shannon (1948), que mostrou como o conceito de informação poderia ser usada para quantificar factos sobre contingência e correlação de uma forma útil, inicialmente, para o uso na tecnologia de comunicação [2].
Neste, e nos outros artigos que se seguirão, procurarei concentrar-me na “Teoria da Informação de Shannon”, TIS (e, eventualmente, na teoria algorítmica da informação de Kolmogorov e Chaitin) e suas aplicações mais diretas na biologia molecular e na biologia evolutiva, aventurando-me menos nas implicações desta teoria na cognição e no comportamento animal. Outro ponto importante é que não pretendo, pelo menos nesta série de posts, aventurar-me pelas teorias mais elaboradas e ricas sobre conteúdo semântico em sistemas biológicos, como as abordagens 'teleo-semânticas' [3], tanto as mais gerais - que buscam dar maior precisão a ideia que os genes carregam um tipo de informação especial que resulta nos 'fenótipos normais' e na função biológica (e que, em contraste, não nos permitiriam dizer, em contrapartida, que os fenótipos têm informação sobre os genes, i.e. como se eles “especificassem uma mensagem imperativa”) -, como as mais específicas, como as Millikan e Papineau [3, 4], que versam sobre o conteúdo mental e visam explicar a emergência do significado em sistemas cognoscentes como nós, e que, portanto, recaem no domínio da filosofia da mente.
Shannon e a 'Informação biológica': Uma pequena prévia
De acordo com Shannon, uma fonte de informação é qualquer coisa que possa assumir um número de estados alternativos, cada um dos quais, realizáveis em uma ocasião especial. De maneira complementar, qualquer outra variável é dita transportar informação sobre a 'fonte' caso seus estados estejam correlacionados com os estados da fonte. Portanto, a informação é uma questão de grau, de modo que um sinal trará tanto mais informação sobre a fonte, quanto melhor seu estado servir para prever o estado da fonte [2].
Talvez nada demonstre melhor o emprego deste jargão informacional do que a ideia de um "código genético" - isto é, a relação entre determinadas trincas de nucleotídeos e os resíduos de aminoácidos (e sinais de começo e parada de 'leitura' e 'síntese'), durante a síntese proteica - e aquilo que convencionou-se chamar de 'dogma central da biologia molecular'*, que indica o fluxo preferencial da “informação biológica” nas células. Assim, usando o jargão e os esquemas de Shannon, temos uma analogia óbvia que podemos ver na ilustração abaixo.
A figura mostra como a teoria da informação pode ser associada ao "fluxo de informação molecular" dentro da célula. Como explica o filósofo Paul E. Griffths, a 'informação' fluiria através de um canal, interligando dois sistemas, uma fonte, que contém a informação, e um receptor, que seria o sistema sobre o qual a informação diz respeito [3]. Assim, existiria um canal entre dois sistemas quando o estado de um está causalmente ligado, de forma sistemática, ao estado do outro, de modo que o estado da fonte pode ser descoberto através da observação do estado do receptor. O conteúdo informacional causal de um sinal é simplesmente o estado de coisas correlacionadas de forma confiável com a outra extremidade do canal, como explica Griffths:
" A fumaça traz informações sobre o fogo assim com as doenças carregam informações sobre os 'genes das doenças'.” [3].
Note, entretanto, que no caso da perspectiva de Shannon, as recíprocas são verdadeiras, pois podemos dizer também que o fogo carrega informação sobre a fumaça e que as doenças de origem genética carregam informações sobre os genes a elas associados. Portanto, proteínas (e mesmo seus fenótipos, como no caso dos 'genes das doenças' e das doenças) carregam informações sobre os genes, havendo uma paridade entre 'fonte' e 'destino' que permite a sua inversão, dependendo dos interesses do investigador, algo que não existe em conceitos mais amplos e polêmicos de informação, como o já mencionado teleo-semântico [3]. Esta perspectiva não é controversa (embora hajam debates sobre questões associadas a interpretação das probabilidades etc) e tem várias aplicações que nos permitem pensar sobre contingência e correlação em muitas áreas da biologia molecular e da genética. O ponto principal é que, neste contexto, quando cientistas referem-se a 'informação', por exemplo, referindo-se a ação gênica, eles estão apenas escolhendo uma perspectiva quantitativa específica para descrever correlações normais ou conexões causais entre os sistemas que estão investigando [2]. Não há, portanto, a pressuposição de um supremo 'conhecedor' ou 'codificador', nem uma especificação do conteúdo e, assim, não existe tampouco uma noção de conhecimento semântico por parte dos sistemas. De início já deveria estar claro que, a partir dos conceitos da teoria de Shannon, não é possível extrair as conclusões criacionistas, mas falaremos mais sobre isso em outros artigos da série.
Contudo, embora seja relativamente simples compreendermos estas correlações e relações causais ao nível do DNA codificante e de outros biopolímeros, como RNAs e proteínas (transcritos e traduzidos durante o processo de leitura destes genes), o mesmo não é necessariamente verdadeiro para níveis mais amplos de análise, como os que envolvem as relações entre genes e o desenvolvimento ontogenético, no chamado mapeamento entre genótipo e o fenótipo. Nestes casos não estamos lidando com uma relação causal simples e direta, e embora expressões como “programa genético” sejam relativamente comuns, elas não passam de metáforas úteis, mas que, por vezes, podem tornar-se enganadoras [3], caso não demos atenção as profundas 'desanalogias' entre os sistemas biológicos e a nossa linguagem e tecnologia.
Diferentemente do que ocorre ao nível molecular mais básico - onde tanto um tratamento matemático preciso das relações entre sequências, como por meio do uso proveitoso de esquemas semelhantes aos de Shannon na análise dos processos de transcrição e tradução etc são possíveis -, nestes outros níveis, o discurso de “informação genética” e, especialmente, a perspectiva do genoma como um programa perde em rigor e, por causa disso, devem ser vistos com o devido cuidado**. Este é o principal motivo por que procurarei manter-me onde a ideia de informação é mais precisa e consensual, ainda que menos profunda.
[À esquerda Shannon brincando com seu 'camundongo eletromecânico' que ele chamou de Teseu, artefato tecnológico que representa uma das primeiras tentativas de "ensinar" máquinas à "aprender", na aurora dos estudos de Inteligência Artificial.]
No próximo post desta série, irei explicar um pouco melhor a teoria de Shannon e tentar evitar algumas das confusões habituais entre 'informação', 'entropia', 'incerteza' e 'desordem' que surgem, principalmente, da equação empregada por Shannon - basicamente a mesma usada por Boltzmann] para descrever a 'entropia' (termo que, aparentemente à conselho de von Neuman, também foi usado por Shannon. Este simples fato, até hoje, é causa de grande confusão e será uma das questões as quais tentarei clarificar.
Neste processo iremos conhecer os trabalhos do biólogo teórico Thomas D. Schneider e sua 'teoria das máquinas moleculares', do físico Christoph Adami e seus diversos colaboradores, com suas medidas de complexidade, passando pelas perspectivas e insigths do biólogo evolutivo, Joe Felsenstein, e do geneticista e pesquisador da origem da vida, Jack Szostak, contrastando-as as perspectivas científicas destes pesquisadores com as visões distorcidas e equivocadas dos adeptos do Design Inteligente às voltas com a teoria da informação e com o conceito de complexidade. Ao contrário do disseminado pelos criacionistas, não há qualquer empecilho ao aumento de informação associado aos sistemas biológicos durante a evolução biológica por meio de mecanismos naturais, especialmente através da seleção natural, quando definidos e quantificados de maneira apropriada e rigorosa.
Espero que até o final desta jornada eu e você, leitora e leitor, tenhamos aprendido mais sobre informação, biologia e evolução, apreciando juntos o trabalho de vários cientistas e matemáticos que vêm aplicando as teorias de Shannon, e outras derivadas dela, às questões que tanto nos fascinam sobre os seres vivos, ancestralidade comum e descendência com modificação.
-------------------------------------------------------------------
*Neste caso específico, refiro-me mais ao que Francis Crick chamou de “hipótese de sequência” que toma a forma do diagrama mostrado na figura em questão, e não propriamente ao “dogma central da biologia molecular” como ele havia originalmente formulado, como ideia que a informação genética sempre flui dos ácidos nucleicos para as proteínas e de lá não tem como voltar para os ácidos nucleicos e nem passar para outras proteínas:
"O dogma central da biologia molecular trata da transferência detalhada, resíduo por resíduo de informação, sequencial. Afirma que a informação não pode ser transferida da proteína para qualquer proteína ou ácido nucleico.” (F.H.C. Crick, 1970 citado por Larry Moran).
**Tradicionalmente metáforas de “programa genético” ou de uma “planta genética” são empregadas para se referir as relações entre as sequências de DNA do genoma, especificamente os genes e seus elementos regulatórios, e os fenótipos a eles associados. Estas expressões, muitas vezes, dão a entender que haja uma ligação simples e direta entre o genótipo e o fenótipo em seus mais variados níveis, o que não é verdade na imensa maioria dos casos [5]. Ao invés da elegância e simplicidade esperada de códigos limpos, econômicos e bem feitos, o que vemos é o que PZ Myers chama de “deselegância algorítmica” resultado do processo contingente pelo qual novos genes, elementos regulatórios e redes de interação genéticas surgem ao longo da evolução, dando indicações claras dos processos históricos e erráticos que lhes deram origem [Veja de novo “A origem de nova informação genética. Parte I” e “A origem de nova informação genética. Parte II” ]. Além disso, como já discutido em outras ocasiões, não há a necessidade de uma especificação precisa de todos os processos em todos os níveis, o que tona a ideia de um 'programa genético' minucioso, de fato, desnecessária. As propriedades dos próprios materiais que constituem os organismos, a constância dos ambientes e a natureza das dinâmica não-linear das interações entre moléculas, células, tecidos e sistemas (com a formação de gradientes químicos e limiares de ativação, a existência de laços de retroalimentação positiva e negativa e a ocorrência de processos uma gama de processos e mecanismos físicos “genéricos”), bem como as restrições geométricas que vão surgindo desta dinâmica, são, em grande parte, os verdadeiros responsáveis pelo desenvolvimento ontogenético de seres multicelulares. [Veja “Viva Turing de novo, mais pistas sobre a evolução dos membros em vertebrados”, “Viva Turing ou como os camundongos conseguem seu palato enrugado”, “De determinantes 'genéricos' aos 'genéticos': A importância da física nos primórdios da evolução animal.” e “É a evolução genética previsível? Parte II ou Além da genética parte I”]
“Uma das características mais extraordinárias da ontogenia é que ela procede de maneira confiável e previsível, sem qualquer central de controle do desenvolvimento do organismo como um todo. Não há nada, por exemplo, que verifica se as extremidades do lado esquerdo são do mesmo tamanho que as extremidades do lado direito, intervindo para assegurar a simetria. Existem leitores de sequências de DNA, mas nenhum leitor ao nível superior que inspecionam os 'brotos' dos membros em crescimento no embrião. Assim, esta linha de pensamento apoia a ideia de que os genes se pode dizer que o código para moléculas de proteína, mas não para qualquer coisa mais a jusante.” [2]
--------------------------------------------------
Referências:
Floridi, Luciano Information: A Very Short Introduction Oxford University Press, 2010. 152 p.
Godfrey-Smith, Peter and Sterelny, Kim, "Biological Information" in Zalta, Edward N. (ed.)The Stanford Encyclopedia of Philosophy Fall 2008 Edition.
Griffiths, Paul E. (2001). Genetic information: A metaphor in search of a theory. Philosophy of Science 68 (3):394-412.
Neander, Karen, "Teleological Theories of Mental Content", in Zalta, Edward N. (ed.)The Stanford Encyclopedia of Philosophy Spring 2012 Edition.
Pigliucci M. Genotype-phenotype mapping and the end of the 'genes as blueprint' metaphor. Philos Trans R Soc Lond B Biol Sci. 2010 Feb 27;365(1540):557-66. doi: 10.1098/rstb.2009.0241.