Compreenda os conceitos por trás das principais técnicas de biologia molecular e sequenciamento com nosso glossário prático, projetado para auxiliar pesquisadores em todas as etapas da análise de microbioma.
Por Marina Amorim
Bióloga, Mestre em Neurociências e Auxiliar de Projetos e Clientes na BiomeHub.
Neste postblog será abordado:
Descomplicando a pesquisa em microbioma
Na BiomeHub, estamos comprometidos em tornar o sequenciamento de microbiota e a análise de dados mais acessíveis e eficazes. Pensando nisso, criamos um glossário prático para auxiliar a entender os principais conceitos por trás dos serviços que oferecemos para projetos de pesquisa.
Este guia não só vai esclarecer os termos técnicos, mas também vai ajudá-lo a compreender como essas tecnologias podem impulsionar sua pesquisa. Se você está buscando identificar microrganismos, entender melhor a microbiota em diferentes amostras, estamos aqui para te guiar por cada etapa do processo, desde a coleta de amostras até a análise dos resultados.
Confira nosso glossário para pesquisa em microbioma!
GLOSSÁRIO:
Abundância diferencial
Pode ser definida como uma análise comparativa entre as quantidades relativas de diferentes espécies ou grupos de organismos em várias condições, ou amostras. É a abundância diferencial que permite identificar quais microrganismos estão presentes em quantidades significativamente diferentes entre os grupos comparados, ajudando a identificar variações na composição da microbiota entre diferentes circunstâncias.
Alfa diversidade
É uma medida que avalia a diversidade dentro de uma única comunidade, amostra ou ecossistema, como, por exemplo, a microbiota intestinal de um indivíduo. Ela mede quão diversificado é o conjunto de microrganismos presentes em uma amostra.
Alguns índices para calcular alfa diversidade utilizados são:
Riqueza: número total de espécies encontrado em cada amostra.
Shannon: avalia tanto a medida da riqueza de microrganismos quanto a uniformidade (proporção em que esses microrganismos estão distribuídos na amostra).
Simpson: fornece a probabilidade de coletar dois indivíduos de uma mesma amostra ao acaso, e estes pertencerem a uma mesma espécie.
Inverso de Simpson: similar ao índice de Simpson, com o detalhe de dar mais peso às espécies raras na amostra.
Aumento da alfa diversidade e da complexidade funcional bacteriana, e redução da variação entre indivíduos (beta diversidade) com a idade. Adaptado de: 10.1016/j.tim.2019.08.001
ASV (Variantes de Sequência de Amplicon)
Técnica que identifica sequências de DNA específicas presentes em amostras microbianas, sem o agrupamento em unidades consenso com diferentes níveis de identidade taxonômica, como ocorre nas OTUs (Unidades Taxonômicas Operacionais), que em geral agrupam todas as sequências com mais de 97% de identidade. Em vez de agrupar sequências semelhantes, a abordagem ASV identifica exatamente quais sequências estão presentes e quantas vezes cada uma é detectada.
Ao possibilitar a análise de sequências exatas com base em um limiar de confiança estatística, a análise ASV produz resultados mais precisos e padronizados, permitindo a comparação entre diferentes estudos que analisam a mesma região-alvo de DNA. Essa precisão facilita uma identificação detalhada de microrganismos, muitas vezes até o nível de espécie, aumentando o potencial de descobertas sobre a diversidade e função microbiana.
Beta diversidade
Refere-se à variação ou diferença na composição de espécies entre diferentes ambientes ou amostras. Ela mede o grau de mudança na comunidade microbiana de um local para outro. A beta diversidade compara dois ou mais ecossistemas (ou amostras) para identificar quantas e quais espécies são exclusivas e/ou compartilhadas entre eles. A medida da beta diversidade é fundamental para entender como fatores ambientais ou condições de saúde influenciam a microbiota.
Existem diferentes índices para medir a beta diversidade, entre eles, podemos citar:
Dissimilaridade de Bray-Curtis: leva em consideração a composição e a abundância das espécies.
Distância de Jaccard: leva em consideração a composição das espécies.
UniFrac não ponderada: distância da diversidade filogenética sem considerar a abundância.
UniFrac ponderada: distância da diversidade filogenética, levando em consideração a composição e a abundância.
Distância euclidiana: mede a distância linear entre as amostras.
Covariáveis
Variáveis adicionais que podem influenciar as variáveis de interesse da pesquisa, e podem ser usadas para selecionar ou controlar fatores que impactam os resultados da análise. Esses fatores não são o foco principal da pesquisa, mas são importantes para interpretar os dados com precisão, pois podem introduzir variabilidade nos resultados.
Exemplos de covariáveis em estudos de microbioma humano: Idade, sexo e peso dos participantes, pois podem naturalmente afetar a microbiota.
Ao incluir covariáveis na análise, os pesquisadores podem controlar esses fatores estatisticamente, reduzindo seu impacto nos resultados e isolando o efeito das variáveis de interesse principal. Isso ajuda a garantir que as conclusões sobre a composição do microbioma sejam robustas e menos influenciadas por fatores externos.
FASTQ
Formato de arquivo utilizado para armazenar dados de sequenciamento de DNA ou RNA, incluindo as sequências de nucleotídeos e informações sobre a qualidade de cada base lida durante o sequenciamento. Esse formato é amplamente utilizado na bioinformática para análises de dados de sequenciamento de nova geração (NGS).
Como é o arquivo FASTQ?
O arquivo FASTQ contém 4 linhas para cada sequência: Na primeira linha, com um "@" estão as informações sobre a corrida de sequenciamento em si, como a identificação do equipamento, dos reagentes e do index utilizado. Na segunda linha, está a sequência propriamente dita, (A,T,C,G e N), seguida por um espaço na terceira linha com o sinal "+". E, na quarta linha, estão as informações sobre a qualidade de cada base nucleotídica sequenciada, utilizando o score Phred +33 e caracteres ASCII.
Disponível em: http://drive5.com/usearch/manual/fastq_files.html
Gene 16S rRNA
É uma região do DNA de bactérias e archaea, com cerca de 1500 pb, responsável por codificar a subunidade 16S dos ribossomos. É considerado um bom marcador filogenético por apresentar regiões extremamente conservadas evolutivamente, mas também 9 regiões hipervariáveis (V1-V9), que facilitam a diferenciação entre as espécies. É amplamente utilizado em estudos para identificação de espécies bacterianas, análise filogenética e estudos de biodiversidade microbiana.
Representação do gene 16sRNA da Escherichia coli (K-12 MG1655) com as 9 regiões hipervariáveis. Disponível em: https://www.nature.com/articles/s41467-019-13036-1
ITS1 (Espaçador Transcrito Interno 1)
É uma região ribossomal amplamente utilizada como marcadora para identificação taxonômica de fungos e plantas. É uma sequência de DNA espaçadora, localizada entre os genes ribossomais 18S e 5.8S de eucariotos e que pode variar de tamanhos entre 100 a 1000 bp dependendo da espécie.
Metadados
Informações adicionais associadas às amostras que fornecem contexto sobre o ambiente, o organismo hospedeiro ou as condições em que as amostras foram coletadas. Esses dados são fundamentais para interpretar os resultados das análises de microbioma, pois ajudam a correlacionar a composição microbiana com fatores específicos.
Metadados são essenciais para fazer associações entre a composição microbiana e fatores externos, como condições de saúde ou ambientais. Em ferramentas como QIIME2, os metadados são incorporados aos dados de sequência para gerar análises comparativas, como testes de diversidade e visualizações de agrupamentos, ajudando a entender melhor as influências sobre o microbioma.
Organizar e decidir quais dados serão coletados é uma etapa fundamental de uma pesquisa clínica, porque permite comparações de multivariáveis no futuro.
Metagenômica - shotgun de DNA total
É uma técnica para sequenciamento do DNA total presente em uma amostra, abrangendo todos os tipos de organismos que a compõem (bactérias, fungos, entre outros).
Vantagens: Possibilidade de caracterização de microrganismos ao nível de linhagem (cepas); Informações genômicas mais detalhadas; Caracterização de atividades metabólicas e redes gênicas; Montagem de genomas microbianos completos; Estudos investigativos e descobertas de novas famílias gênicas; Estudos e caracterização de novos microrganismos.
Leia também: Bioinformática e metagenômica?
Paired-end
Formato de sequenciamento em que as duas extremidades (ou "pares") de uma mesma molécula de DNA são sequenciadas. Nesse método, o sequenciamento é feito a partir de ambas as extremidades do fragmento de DNA em direção ao centro do mesmo (R1 e R2), gerando duas leituras que podem ou não ter sobreposição, a depender do tamanho do fragmento/amplicon sendo sequenciado.
QIIME2
Software aberto e gratuito de bioinformática para realização de análises de dados brutos de microbioma. Permite criar estatísticas e gráficos compreensíveis para publicação, facilitando a análise sobre a composição e função das comunidades microbianas.
Obs.: Na BiomeHub você recebe os arquivos de dados brutos (.fastq), para analisá-los na plataforma QIIME 2, ou ainda pode receber os dados já processados na plataforma (consulte-nos para saber mais).
Sequenciamento de amplicons
Nesta técnica de sequenciamento, regiões específicas do DNA-alvo são amplificadas por PCR (reações de polimerase em cadeia) para gerar múltiplas cópias do fragmento de interesse. Os amplicons, ou seja, os fragmentos de DNA gerados, são então sequenciados para identificar as espécies presentes em uma amostra, bem como para determinar a composição e a abundância relativa de cada uma.
As regiões de interesse escolhidas no sequenciamento possuem alta taxa de conservação entre as espécies mas incluem também trechos hipervariáveis permitindo a distinção entre grande parte das espécies. Os marcadores mais utilizados para microrganismos são o gene 16S rRNA para identificação de bactérias, e a região ITS1 para identificação de fungos.
Vantagens : Maior custo-efetividade. Funciona bem para amostras que contenham também DNA humano. Bancos de dados para análises disponíveis e amplamente utilizados. Grande quantidade de estudos populacionais e dados disponíveis para avaliação dos resultados de microbioma.
Demonstração do fluxo de trabalho para o sequenciamento de amplicons de 16S rRNA e ITS. Disponível em: 10.3390/biomedicines11030827
Single-end
Formato de sequenciamento de DNA em que apenas uma das extremidades do fragmento de DNA é sequenciada. Isso significa que, em vez de obter leituras das duas extremidades do fragmento (como no sequenciamento paired-end), o sequenciamento single-end gera apenas uma única leitura por fragmento (R1).
Esse formato é geralmente mais rápido que o sequenciamento paired-end e, dependendo do kit/equipamento pode ser também mais barato. Deve-se avaliar se o fragmento sequenciado será específico suficiente para o propósito requerido na análise, ex., sequenciar 300 pb single-end da região V3/V4 do gene 16S rRNA é suficiente para obtenção das identificações taxonômicas bacterianas com apenas ~1% de resolução a menos que o sequenciamento paired-end da mesma região.
Variáveis de comparação
São os fatores ou características que são usados para diferenciar e comparar grupos de amostras. Essas variáveis ajudam a identificar diferenças na composição e na diversidade dos microbiomas entre grupos distintos.
Exemplos de variáveis de comparação: estado de saúde (comparação entre pessoas saudáveis e pessoas com alguma condição de saúde específica), tratamento ou intervenção (comparação antes e depois do uso de antibióticos, dieta ou probióticos).
Ficou com alguma dúvida? Nossa equipe está aqui para ajudar! Entre em contato conosco e receba a ajuda que precisa.
Referências:
ANATOL-FIETE, N., et al. Secondary data for global health digitalisation. The Lancet Digital Health. 2023.https://www.thelancet.com/journals/landig/article/PIIS2589-7500%2822%2900195-9/fulltext#fig1
ATHANASOPOULOU, K., et al. Unveiling the Human Gastrointestinal Tract Microbiome: The Past, Present, and Future of Metagenomics. Biomedicines. 2023. https://doi.org/10.3390/biomedicines11030827
BOLYEN, Evan et al. Reproducible, interactive, scalable and extensible microbiome data science using QIIME 2. Nature biotechnology. 2019. https://doi.org/10.1038/s41587-019-0209-9
DERRIEN, M., et al. The Gut Microbiota in the First Decade of Life. Trends Microbiol. 2019 . https://doi.org/10.1016/j.tim.2019.08.001
Drive5. FASTQ files. In: USEARCH manual [Internet]. Disponível em: http://drive5.com/usearch/manual/fastq_files.html
GALLOWAY-PEÑA,J., et al. Tools for Analysis of the Microbiome. Digestive diseases and sciences. 2020. https://doi.org/10.1007/s10620-020-06091-y
JOHNSON, Jethro S. et al. Evaluation of 16S rRNA gene sequencing for species and strain-level microbiome analysis. Nature communications. 2019. https://www.nature.com/articles/s41467-019-13036-1
JOVEL, Juan et al. Characterization of the Gut Microbiome Using 16S or Shotgun Metagenomics. Frontiers in microbiology 2016. https://doi.org/10.3389/fmicb.2016.00459
KARSTENS, Lisa et al. Controlling for Contaminants in Low-Biomass 16S rRNA Gene Sequencing Experiments. mSystems. 2019, https://doi.org/10.1128/msystems.00290-19
KNIGHT, Rob et al. “Best practices for analysing microbiomes.” Nature Reviews Microbiology 16. 2018. https://doi.org/10.1038/s41579-018-0029-9
MELO, A.S.M. O que ganhamos 'confundindo' riqueza de espécies e equabilidade em um índice de diversidade?. Biota Neotrop. 2008. https://doi.org/10.1590/S1676-06032008000300001
ZHULIN IB.. Classic Spotlight: 16S rRNA Redefines Microbiology. Journal of Bacteriology. 2016. https://doi.org/10.1128/jb.00616-16