Exercício 1. GenBank



Prática NCBI/GenBank


Nota: A página do NCBI muda muito frequentemente e é natural que algumas das indicações que aqui são dadas estejam ultrapassadas. O que se pretende com este exercício é que explore por si mesmo os vários menus e possibilidades que esta base de dados lhe concede. Não é tão importante a resposta quanto o facto de visitarem zonas do site que considero relevantes para o trabalho que desenvolvemos.



Links

Opções do GenBank

A entrar no local apropriado no GenBank

Resultados


Introdução

O propósito desta aula é divulgar as bases de dados genéticos online, mostrando a informação disponível, como é que se procura essa informação e como se pode usar essa informação. O NCBI (National Center for Biotechnology Information) criado em 1988, como um recurso nacional americano de informação sobre biologia molecular, disponibiliza bases de dados públicas, conduz pesquisas em biologia computacional, desenvolve ferramentas informáticas para análise de dados genómicos e dissemina informação biomédica. O Genbank é uma de várias bases de dados genéticos administradas pelo NCBI, contendo mais de 20 biliões de nucleótidos em mais de 18 milhões de sequências.


Comece por aceder à homepage do NCBI www.ncbi.nlm.nih.gov e familiarize-se com os links nesta página principal. Se se perder, pode sempre retornar a esta página como ponto de partida. Selecione a opção Taxonomy na barra lateral para entrar na homepage de Taxonomia do NCBI. A base de dados Taxonomy contém os nomes daqueles organismos cujas sequências foram já depositadas e encontram-se organizados de acordo com sua classificação taxonómica. Os dados da sequência estão disponíveis para relativamente poucas das aproximadamente 30 milhões de espécies diferentes estimadas para existir na Terra. Selecione a opção Taxonomy statistics e veja quantos organismos são representados no GenBank? (472000)


1. Para o ano de 2009, quantas espécies (all taxa) diferentes são representadas nas bases de dados de sequências ? (21933)

Interessantemente, os dados de sequências, mesmo de organismos extintos, também estão listados na base de dados GenBank. Ainda nesta página, escolha a opção Extinct organisms na barra azul do lado esquerdo para ver que organismos se encontram listados na bases de dados. A informação da sequência de nucleotidos está disponível para organismos extintos tais como Homo sapiens neanderthalensis e Smilodon fatalis (tigre de dentes de sabre). Selecione a opção sobre o Mammuthus primigenius (Woolly mammoth - mamute lanudo). Na página seguinte surge informação específica a respeito da linhagem (ancestralidade) deste organismo. Selecione a opção Proboscidea na linhagem que corresponde à Ordem a que pertence o Mamute, a mesma do elefante. Será assim ligado a uma página que contém a informação desta linhagem.


2. Além do Mamute Lanudo, quantos outras sequências de nucleótidos de Proboscideae estão no GenBank? (40,432)


3. Quantas sequências de nucleotidos foram depositadas no GenBank até agora para o Mammuthus primigenius? (772)

Tente aceder às sequências de nucleotídos deste organismo. Tome nota que precisa de alterar  os settings para mais sequências, e não só as que se encontram na 1ª página por default, e que são sómente 20. Verifique o que cada registo contém, de acordo com o formato: summary, GenBank e FASTA.

Depois procure a sequência com o número de acesso D50842, que é a sequência completa de Citocromo b mitocondrial. (visualize-a e siga para a próxima pergunta).


4. Quantos pares de bases de nucleotídios (pb ou bp em inglês) esta entrada de DNA contém? (a resposta está na primeira linha) (1137)

Veja o relatório completo com as referências sobre este DNA e a sequência deduzida de amino-ácidos. O quantidade de dados pode parecer desconcertante, mas tudo aqui é para fornecer aos investigadores o máximo de informação sobre este gene. Observe que o DNA mitocondrial do Mammuthus primigenius [extinto] contem a sequência codificadora completa (cds – coding sequence) presente no DNA mitocondrial. Diversas referências são listadas também para esta sequência. Por exemplo, sob a referência 3, vemos que esta sequência do nucleotídios foi depositada na base de dados do GenBank em 1 de junho de 1995. Além disto, sob a referência 1, encontramos um artigo completo da pesquisa relacionado a esta sequência: Noro, M., Masuda, R., Dubrovo, I.A., Yoshida, M.C. e Kato, M. Inference phylogenétic molecular do primigenius mammoth woolly de Mammuthus, baseado em sequências completas genes ribosomal do RNA b e 12S mitochondrial do cytocrome. J. Mol. Evol. 46 (3), 314-326 (1998).  Caso que queira ler o resumo do artigo a respeito desta sequência do nucleotídos, tem disponível um link directo no PUBMED 9493356. No fim do écran, poderá encontrar a sequência do nucleotídos (todas as letras de A, G, C e T), bem com a tradução deduzida de amino-ácidos da proteína.


5. Que diferença existe entre estas duas situações: dedução da sequência de amino-ácidos a partir de uma sequência de nucleótidos e dedução de uma sequência de nucleótidos a partir de sequência de amino-ácidos?


6. Quantos amino-ácidos compreendem esta proteína do Citocromo b?

MÓDULO 1. Taxonomia