Inteligência artificial e SIR na predição do fim da primeira onda do coronavírus no Brasil— Parte 5

Caíque Coelho
10 min readJul 6, 2020

--

Este texto faz parte de uma série de estudos conduzidos sobre a evolução temporal em relação ao número de casos de COVID-19 no Brasil, analisando os dados com gráficos, modelos de inteligência artificial e modelos epidêmicos. Os estudos passados podem ser encontrados nos links abaixo:

Artigo 1: Prevendo o crescimento de casos de COVID-19 (coronavírus) no Brasil com análise de dados, gráficos e equações! — Parte 1

Artigo 2: Análise e predição do crescimento de casos de COVID-19 (coronavírus) no Brasil — Parte 2

Artigo 3: Análise e predições para o achatamento da curva de COVID-19 no Brasil: Uma abordagem com IA e SIR — Parte 3

Artigo 4: Prevendo o real número de infectados e o fim da COVID-19 no Brasil, utilizando inteligência artificial e SIR — Parte 4

Artigo 6: Prevemos a catástrofe da COVID-19 de 2021 utilizando IA e SIR

Todos os códigos e dados utilizados neste estudo estão disponíveis no github no link a seguir:

Neste texto veremos:

  • Análise das previsões feitas pelo modelo SIR no dia 25 de abril
  • Previsões de novos casos diários em 14 dias, previsão para daqui 1 mês e em até 3 meses;
  • Previsões sobre o fim da primeira onda de transmissão no Brasil;
  • Previsões sobre uma possível imunidade de rebanho significativa;

Os dados utilizados são disponibilizados pela Jonhs Hopkins University neste link, também podemos encontrar os dados em tempo real no site World O Meter e dados para os estados e municípios brasileiros aqui.

A ideia deste estudo é levantar hipóteses a partir dos dados históricos, analisando a tendência do crescimento diário de novos casos. O artigo não tem a intenção de pregar o alarmismo e deve ser interpretado como uma abordagem de estudo sem nenhuma validação ou comprovação científica.

Previsões Passadas

No texto publicado no dia 25 de abril, tentei aplicar o modelo SIR para encontrar o pico dos casos de COVID-19 no Brasil e para o estado de São Paulo, prevendo respectivamente algo próximo a 4 de junho e 29 de maio, prevendo uma contenção mais segura para o começo de agosto, no entanto o pico nunca chegou, nem para o Brasil, nem para São Paulo, como podemos ver nos gráficos a seguir.

O número de novos casos por dia no Brasil continua aumentando dia a dia, batendo recordes, mantendo uma constância já conhecida de menos casos reportados entre sábado e segunda e um grande aumento entre terça e sexta.

A situação fica mais alarmante ainda quando vemos que nunca alcançamos uma resistência de crescimento no número de casos, como por exemplo a Itália alcançou há muito tempo.

A mesma situação acontece para o estado de São Paulo.

O esperado com o isolamento social era que o crescimento de novos casos fosse freado ao ponto de evitar a lotação de UTIs, alcançando o achatamento da curva, porém com o isolamento muito falho e com medidas de flexibilização, o achatamento nunca foi alcançado, provocando a lotação de UTIs em inúmeras cidades, como por exemplo, nove estados já estão com mais de 80% das UTIs lotadas e na cidade de Cuiabá, 65 pessoas com covid-19 aguardam a liberação de leitos.

Ainda no texto anterior, usamos o dado de 40.743 casos confirmados no Brasil no dia 20 de abril para prever o real número de casos no dia 20 de abril que provavelmente só seriam descobertos no dia 4 de maio. Utilizando apenas o modelo SIR prevemos um número de 83.813 casos e utilizando algumas técnicas para tentar reduzir os efeitos da baixa realização de testes e o tempo de incubação do vírus até a realização e resultado do teste, prevemos 167.683 casos, porém no dia 4 de maio tivemos 108.620 casos confirmados. Nessas previsões o modelo SIR(-33%) ficou mais próximo do que o modelo matemático que tenta reduzir o efeito do atraso do tempo entre incubação do vírus e resultado do teste(+36%), para efeitos de comparação iremos utilizar novamentes apenas o modelo SIR, junto com alguns modelos de inteligência artificial como Regressão Linear, SVR e Huber. Para mais detalhes leia o primeiro texto da série e o quarto texto.

Previsões de novos casos em 14 dias, 1 mês e em até 3 meses

Para essas análises iremos aplicar o modelo SIR e os algoritmos de inteligência artificial apresentados acima, de tal forma que resumidamente tentam trabalhar da seguinte maneira:

Regressão Linear: Tenta prever números futuros com um crescimento linear do tipo m.x + b = y, onde:

m é o fator de transmissão, ou seja, uma pessoa pode transmitir para até quantas pessoas, o próprio algoritmo do modelo de inteligência artificial tenta encontrar o melhor valor para m analisando os dados dos dias anteriores

x é a quantidade de casos de coronavírus conhecido até o momento

b é um peso para ajustar o valor final previsto, podendo ser um valor negativo ou positivo o qual o próprio algoritmo também determina

y é a quantidade de casos prevista para dado uma informação x

O nosso modelo de inteligência artificial com regressão linear após analisar todo o histórico de dados com os números do coronavírus desde março até dia 2 de julho encontrou os seguintes valores:

m.x + b = y
m = 1,03
x = NUMERO_DE_CASOS_02_07 = 1496858
b = 2551,54
Logo, y = Total de casos no dia 3 de julho =
1,03 * 1496858 + 2551,54 = 1.544.644

Importante ressaltar que o modelo de regressão linear não é um modelo preciso, pois tenta traçar uma linha reta de previsões, e podemos ver nos gráficos anteriores que a curva de crescimento de casos no Brasil se assemelha a uma curva exponencial, portanto o modelo com regressão linear pode acabar traçando uma reta muito inclinada o que pode gerar previsões muito altas, mas também pode gerar uma reta com baixa inclinação levando a uma sub previsão, em nosso estudo acreditamos que o modelo está superestimando com 10% a 20% a mais na previsão.

Modelo SIR: O modelo SIR é uma equação epidemiológica formulada há anos por cientistas, matemáticos, médicos e epidemiologistas, tendo como base alguns parâmetros como número de habitantes do local, número de pessoas ainda não infectadas, ou seja suscetíveis(S), número de pessoas infectadas(I) até o momento e número de pessoas removidas(R), onde removidas é o número resultante da soma de pessoas recuperadas + óbitos, estimativa da velocidade de pessoas recuperadas por dia estimativa da velocidade de pessoas infectadas por dia. Com base nesses dados utilizando equações já predefinidas com conceitos de cálculo fracionário e inteiro com derivadas o modelo consegue chegar em uma previsão que se assemelha a uma equação exponencial, ou seja, se assemelha a uma curva de crescimento exponencial até encontrar o pico e depois passa a decrescer, para mais detalhes sobre o modelo você pode conferir clicando aqui.

Modelo SVR : É um modelo de inteligência artificial um pouco mais complexo do que a Regressão Linear, podendo prever comportamentos em forma linear, exponencial ou em função de base radial. Você pode conferir uma melhor explicação sobre esse algoritmo clicando aqui.

Vamos aos números, prevendo o número de casos confirmados entre 9 de abril até 15 de abril temos os seguintes resultados:

Analisando as previsões para 14 dias em um cenário mais conservador previsto pelo modelo SVR teremos no dia 16 de julho 1.921.969 casos de coronavírus no Brasil e em um cenário mais pessimista previsto pela Regressão Linear teremos 2.314.559 casos ou seja um aumento entre 28% a 54% para os contabilizados até dia 2 de julho (1.496.858). Já para as previsões daqui um mês temos uma diferença a mais entre 70% a 152% e dentro de 90 dias um aumento entre 398% a 1434%.

Com base nos estudos passados temos que o modelo SIR chega muito próximos dos resultados reais, portanto iremos tomar as previsões feitas pelo modelo SIR como tendo a maior probabilidade de estarem certas, ou seja, um aumento de 47% para o dia 16 de julho, 129% para o dia 2 de agosto e 1042% para 30 de setembro.

Fim da primeira onda e imunidade de rebanho

Analisando o país como um todo sem diferenciar por estado ou por cidade vimos que nunca alcançamos nem se quer uma resistência no aumento dos casos, portanto nunca chegamos nem no pico da primeira onda e analisando São Paulo temos a mesma situação.

Os isolamentos parciais feitos até agora por serem justamente parciais apenas nos fizeram passar por uma onda parcial,com as flexibilizações acontecendo acredito que o pico estará cada vez mais longe e continuaremos com uma tendência de crescimento de novos casos por dia entre 3% a 5%, por conseguinte acredito que não chegaremos tão cedo no fim da primeira onda.

Utilizando o modelo SIR podemos acreditar que na verdade teremos apenas uma grande onda, com muitos casos e infelizmente muitas fatalidades que só chegará ao fim com a imunidade de rebanho. Tomando como base que uma pandemia apenas é superada quando ao menos 60% da população já foi contaminada e está recuperada, esse seria o nosso ponto de imunidade de rebanho mínimo, porém estamos muito longe desse número, o que por certo lado é algo positivo dado a alta taxa de letalidade da doença no Brasil e a alta taxa de casos graves, uma vez que não alcançamos uma porcentagem tão alta de contaminados ao mesmo tempo não passamos por um colapso do sistema de saúde, esse ponto positivo se dá graças ao isolamento parcial, que por mais que tenha sido falho, evitou maiores complicações do sistema de saúde, porém já vemos inícios de alguns problemas conforme flexibilizações vão sendo adotadas.

Se seguirmos o caminho das flexibilizações sem conseguir conter o avanço da primeira onda seguiremos exatamente o comportamento previsto pelo modelo SIR abaixo:

O modelo SIR prevê o comportamento onde 100% da população é contaminada, o que pode ser um desastre dado que a taxa de letalidade no Brasil atualmente é de 4%, ou seja, a cada 100 pessoas contaminadas, 4 pessoas infelizmente vão à óbito, a estudos que acreditam que a taxa de letalidade seja menor algo por volta de 1.33%, o que mesmo assim nos levaria a uma tragédia de 2 milhões e 700 mil mortes no Brasil. Portanto é necessário que possamos impedir o avanço da onda no país para que seja possível garantir a sanidade do sistema de saúde enquanto uma vacina ou cura estão sendo estudadas e até se possível erradicar o vírus de algumas regiões, caso o avanço não seja impedido enfrentaremos o colapso do sistema de saúde o que pode inclusive elevar a taxa de letalidade.

Partindo do princípio que teremos apenas uma grande onda, teríamos o pico no Brasil daqui 8 meses, em março de 2021 e o controle mínimo da pandemia apenas em 11 meses, junho de 2021.

Olhando isoladamente para São Paulo teríamos o pico em 4 meses em meio, ou seja, em dezembro e o controle mínimo em 9 meses, maio de 2021.

Com a quantidade de casos crescendo diariamente em uma proporção em média de 3% sem nenhuma resistência, é difícil podermos prever o fim da primeira onda, o que podemos afirmar é que caso essa tendência continue iremos alcançar uma possível imunidade de 60% da população em junho de 2021, o que será algo bem próximo de uma imunidade de rebanho mínima.

Do meu ponto de vista, acredito que por mais que algumas cidades e estados não estão com lotação nas UTIs, dado o aumento de novos casos por dia constante, ainda é uma ação sem cautela as flexibilizações, nesta segunda dia 6 de junho a cidade de São Paulo irá reabrir bares e restaurantes, em prol do meu bem estar e do bem estar das pessoas que amo e protejo estarei ficando em casa até que os dados apresentados sejam diferentes dos que temos até hoje e aconselho a quem possa fazer o mesmo.

Se você gostou deste estudo deixe aqui os seus aplausos a esquerda ou abaixo. Qualquer dúvida ou feedback estou a disposição através dos comentários e continuem se cuidando!

Em breve voltarei com mais estudos focado na previsão de cidades ou estados que podem passar por um descontrole de casos de COVID-19.

Lembrando que todos os códigos e dados utilizados neste estudo estão disponíveis no github no link a seguir:

--

--

Caíque Coelho

A QA lover and App Developer on weekends and a Data Scientist on free time. Founder App Teste Eneagrama.