Informações
Nome Completo do Proponente
Guarino Rinaldi Colli
Matrícula UnB
852261
Unidade acadêmica da UnB
grcolli@unb.br
Link Cúrriculo Lattes
Título da Proposta
Modelo espaço-temporal bayesiano da difusão do SARS-CoV2 nos municípios brasileiros
Sumário Executivo da Proposta
A COVID-19 (Coronavirus Disease 2019) está provocando uma grave crise de proporções planetárias, sem precedentes nesse século. Governos, setor produtivo e a sociedade em geral buscam informações e soluções de curto prazo para enfrentar a pandemia e minimizar seus impactos. Entretanto, existem três importantes lacunas para o rápido desenvolvimento de modelos acurados da difusão da COVID-19 no Brasil: (1) o acesso a bases de dados relevantes, (2) a identificação dos principais fatores de risco e (3) o uso de abordagens espaço-temporais para todos os municípios. Apesar da rápida multiplicação de modelos preditivos do crescimento do número de infectados, são incipientes as abordagens espaço-temporais para prever, no curto prazo, as regiões de maior risco. Nós propomos uma plataforma para suprir essas lacunas, de forma a consolidar e disponibilizar dados relevantes para subsidiar estudos sobre a difusão da pandemia, identificar os principais fatores de risco e fornecer projeções futuras da difusão da COVID-19 em todos os municípios brasileiros. A identificação de fatores de risco será baseada em técnicas de machine learning e as projeções serão obtidas através de modelos espaço-temporais utilizando uma combinação de equações diferenciais estocásticas parciais e inferência bayesiana por INLA. Com isso, iremos produzir um sistema de alerta precoce que permitirá a alocação efetiva de recursos e a adoção de medidas preventivas nas regiões de maior risco, no devido tempo. A plataforma poderá ser acessada pelo público em geral e poderá ser escalonada com maior detalhamento geográfico (e.g., Distrito Federal) de acordo com a disponibilidade de dados devidamente estruturados.
Tipo da Proposta
Palavras-chave
COVID-19, aprendizado de máquina, modelagem epidemiológica, R-INLA, análise espaço-temporal bayesiana, variáveis preditoras
Número de Integrantes da Equipe
23
Nome dos Integrantes da UnB
Guarino Rinaldi Colli, Almir de Paula, André Henrique de Siqueira, Cecília Rodrigues Vieira, Gabriel Henrique de Oliveira Caetano, Gilberto Lourenço Fernades, Guilherme Albuquerque Barbosa Silva, Ísis da Costa Arantes, Jackson Max Furtunato Maia, Jéssica Fenker Antunes, Jorg Neves Bliesener, Luisa Maria Diele Viegas Costa Silva, Marcello José Barbosa dos Santos, Mariana Mira Vasconcellos, Pedro De Podestà Uchôa Aquino, Renan Janke Bosque, Roger Maia Dias Ledo, Romualdo Alves Pereira, Sérgio Medeiros de Souza, Suelem Muniz Leão, Tarcisio Lyra dos Santos Abreu, Vitor Hugo Gomes Lacerda Cavalcante, Yan Felipe Figueira Soares.
Há integrantes externos à UnB?
Sim
Possui apoio de Grupo de Pesquisa Certificado pela UnB no CNPq?
Sim
Nome/Link do Grupo de Pesquisa certificado no CNPq pela UnB
Laboratório de Herpetologia, CHUnB, Herpetologia do Cerrado
Público alvo
Comunidade Acadêmica | População em Geral | Profissionais da Saúde | Voluntários
Análise do Contexto
O Brasil é o segundo país das Américas com maior número de casos e óbitos de COVID-19, atrás apenas dos EUA (World Health Organization 2020). De acordo com estimativas aprimoradas, o número reprodutivo básico (R0) da COVID-19 variou de 2 a 3,5 na China, Itália e Washington durante os estágios iniciais da epidemia; com base nesses resultados, as previsões para o Brasil indicam que cerca de 60% da população seria infectada, caso nenhuma medida de controle e/ou esforço de mitigação fossem cumpridos (Anderson et al. 2020; Walker et al. 2020). O Brasil tem aproximadamente 212,5 milhões de habitantes e o alto número de fatalidades relacionadas à COVID-19 reflete as limitações inerentes ao sistema de saúde e as estratégias adotadas no combate à pandemia. Projeções atuais indicam que o número de infectados deve aumentar drasticamente no Brasil e ações conjuntas entre a iniciativa privada, a academia, o governo federal e as administrações regionais se fazem muito necessárias. A falta de infraestrutura no combate à pandemia, aliada a uma redução na disponibilidade de recursos médicos no mundo inteiro requer que o governo federal e suas administrações regionais tomem ações mitigatórias rápidas e eficientes. Uma gestão adequada da crise, além de salvar vidas, reduzirá os impactos na economia até o desenvolvimento e a fabricação de vacina e/ou terapias antivirais, que demandam tempo para serem produzidas. Portanto, é essencial a produção de conhecimento para subsidiar decisões informadas pela sociedade na alocação de recursos humanos e financeiros.
Breve Fundamentação Teórica
O monitoramento, modelagem, mapeamento, predições e simulações das taxas de incidência de uma pandemia, como a COVID-19, permite a adoção de um sistema de alerta precoce necessário para a alocação efetiva de recursos às regiões apropriadas, no devido tempo. Existem três importantes lacunas para o rápido desenvolvimento de modelos acurados da difusão da COVID-19 no Brasil: o acesso a bases de dados relevantes e atuais, a identificação de preditores importantes e o uso de abordagens espaço-temporais (Shinde et al. 2020). Não existe ainda um repositório de dados que atenda às demandas das inúmeras iniciativas para identificar padrões e processos da difusão da COVID-19 no Brasil, que seja atualizado de forma dinâmica e automática. A identificação dos principais preditores é etapa essencial, seja para a inferência seja para a predição acerca da difusão da pandemia (Hastie et al. 2009). Apesar da rápida multiplicação de modelos preditivos do crescimento do número de infectados, inexistem abordagens espaço-temporais, i.e., que definam uma função de covariância inseparável do espaço-tempo na modelagem do processo de difusão da COVID-19, para prever no curto prazo as regiões de maior risco. Os modelos até então apresentados são puramente temporais (e.g., SIR) ou espaciais e, em sua maioria, não incluem covariáveis importantes (Bastos and Cajueiro 2020; Cotta et al. 2020; Lyra et al. 2020; Peixoto et al. 2020; Savi et al. 2020; Schulz et al. 2020).
Objetivos e Metas
OBJETIVO GERAL: Identificar os principais fatores de risco e modelar a difusão da COVID-19 no território brasileiro, para subsidiar decisões informadas na alocação efetiva de recursos, no devido tempo, para o controle e mitigação da pandemia.
OBJETIVOS ESPECÍFICOS
1. Construir e disponibilizar repositório integrado de dados relevantes para modelar a difusão da COVID-19.
Meta: repositório de dados construído e acessível. Indicadores: número de acessos ao repositório.
2. Identificar e selecionar os principais preditores da difusão da COVID-19.
Meta: principais fatores de risco identificados. Indicadores: tabelas e gráficos indicando a importância de preditores do número de casos e óbitos da COVID-19 nos municípios brasileiros, bem como a sua contribuição para o incremento da acurácia de modelos preditivos.
3. Construir modelos espaço-temporais bayesianos capazes de predizer, com boa acurácia, a difusão da doença.
Meta: modelo espaço-temporal bayesiano implementado. Indicadores: tabelas, mapas e gráficos indicando a acurácia do modelo bem como suas projeções, para todos os municípios brasileiros nos próximos 30 dias a cada atualização dos dados.
4. Divulgação dos resultados em portal na internet em linguagem acessível para a sociedade em geral.
Meta: portal da internet construída e online. Indicadores: número de acessos o portal na internet apresentando principais fatores de risco e projeções do número de casos e óbitos da COVID-19 nos municípios brasileiros para os próximos 30 dias, a partir de cada atualização dos dados.
5. Publicação dos resultados em revistas científicas especializadas.
Meta: artigo publicado em revista especializada. Indicadores: DOI e número de acessos ao sítio da revista em questão.
Metodologia
Modelaremos a variação espaço-temporal dos casos e óbitos de COVID-19 nos municípios brasileiros desde 21-fevereiro-2020, utilizando uma combinação de equações diferenciais estocásticas parciais e inferência bayesiana por INLA. Devido à natureza dos dados do número de casos e óbitos, bem como ao excesso de zeros, consideraremos modelos baseados nas distribuições de Poisson e binomial negativa e respectivas versões infladas de zeros. Usaremos valores de DIC e CPO para seleção de modelos. Faremos projeções para cada município por 30 dias desde a última atualização dos dados. Já temos a pipeline otimizada para processamento paralelo em cluster configurado na plataforma Microsoft Azure.
Resultados Esperados
Para a sociedade de maneira geral, nossos resultados auxiliarão na tomada de decisões informadas, sobretudo aquelas relacionadas a condutas de isolamento social em áreas de maior risco de infecção. Para os usuários do poder público, a solução oferecerá predições acuradas para a formulação de políticas públicas. Será útil, também, para subsidiar decisões sobre o direcionamento de recursos e implementação de ações mitigadoras, ao permitir a simulação dos impactos futuros de medidas adotadas no presente. Finalmente, a solução irá oferecer importantes elementos para a realização de estudos futuros pelo setor acadêmico. Esses estudos poderão enfocar o refinamento dos modelos, por exemplo com a incorporação de análises de sensitividade ou a otimização dos algoritmos, bem como a investigação dos mecanismos que relacionam os fatores de risco com a difusão da pandemia.
Área de Conhecimento
Subárea de Conhecimento
Há previsão de Orçamento proveniente na unidade acadêmica?
Não
Cronograma da Execução
PRIMEIRA ETAPA (1º ao 3º mês): Identificação e seleção de preditores: serão coletados dados referentes aos números de casos de COVID-19 e óbitos resultantes dessa doença em cada região e municípios. Informações de variáveis compiladas para serem incorporadas no nosso modelo: geográficas, demográficas, socioeconômicas, climáticas e de saúde e mobilidade. Vale ressaltar que essa coleta de informações já se encontra em estágio avançado e foi compilada de maneira voluntária pela equipe do projeto. Identificaremos os principais preditores dos casos de contágio e de óbitos associados à COVID-19, com técnicas de machine learning, construiremos o modelo espaço-temporal hierárquico Bayesiano com R-INLA e mapas preditivos da incidência da COVID-19.
SEGUNDA ETAPA (1º ao 9º mês): Implementação de modelos espaço-temporais, configuração e disponibilização para uso de infraestrutura tecnológica de software e hardware em nuvem. Automação do processo de seleção, extração, tratamento, limpeza, atualização e armazenamento dos dados utilizados nas análises. Essa é uma etapa crítica do projeto, afetando as demais etapas, tendo como requisitos básicos segurança, performance, escalabilidade, flexibilidade. Com o objetivo de disponibilização em curtíssimo prazo dessa solução, está previsto o uso de solução robusta e líder global no segmento, segundo o Quadrante Mágico de Gartner, da empresa Informática, além de terceirização dos serviços de implantação, sustentação e consultoria. Iniciaremos a construção de portal na internet e aplicação para dispositivos móveis (app), onde serão disponibilizadas aos órgãos competentes as predições das nossas análises e, ao público, informações pertinentes. Nesse portal, além dos dados brutos, serão apresentados mapas de disseminação da COVID-19 por município em tempo real e das predições de nossos modelos.
TERCEIRA ETAPA (4º ao 12º mês): Divulgação dos resultados para a sociedade e publicação dos resultados obtidos em revistas científicas especializadas a fim de atingir um público maior. Nossos objetivos incluem apenas o Brasil (país de escala continental), mas nossas análises e modelagens podem ser implementadas em outras regiões do mundo. Também poderá ser expandido para o controle de outras doenças como dengue e zika.
QUARTA ETAPA (7º ao 12º mês): Publicação dos resultados em revistas especializadas.
Tempo total de execução previsto
12