Análise e predição do crescimento de casos de COVID-19 (coronavírus) no Brasil — Parte 2

Caíque Coelho
9 min readMar 27, 2020

--

Bem-vindo, este texto faz parte de uma série de estudos que estou conduzindo sobre a evolução temporal em relação ao número de casos de COVID-19 no Brasil. Os estudos passados podem ser encontrados nos links abaixo:

Artigo 1: Prevendo o crescimento de casos de COVID-19 (coronavírus) no Brasil com análise de dados, gráficos e equações! — Parte 1

Artigo 3: Análise e predições para o achatamento da curva de COVID-19 no Brasil: Uma abordagem com IA e SIR — Parte 3

Artigo 4: Prevendo o real número de infectados e o fim da COVID-19 no Brasil, utilizando inteligência artificial e SIR — Parte 4

Artigo 5: Inteligência artificial e SIR na predição do fim da primeira onda do coronavírus no Brasil — Parte 5

Artigo 6: Prevemos a catástrofe da COVID-19 de 2021 utilizando IA e SIR

Após a boa repercussão do texto anterior (link aqui) resolvi após alguns dias com mais dados, mais estudos e após alguns feedbacks trazer um novo texto, com o acompanhamento das previsões, novas previsões e alguns pontos de vista novos. Os dados utilizados são disponibilizados pela Jonhs Hopkins University neste link, também podemos encontrar os dados em tempo real no site World O Meter.

Todo o estudo apresentado aqui pode ser encontrado no github no link abaixo:

Aqui veremos:

  • Comparação gráfica do crescimento dos casos entre Brasil e Itália, por número de casos e densidade demográfica.
  • Porcentagem de crescimento de casos por dia no Brasil, comparando com Itália, China e Coréia do Sul.
  • Previsões x Confirmados: Comparação das previsões do total de casos do dia 19 até 25 de março, com os modelos de Regressão Linear e SVR com os números reais de casos confirmados.
  • Novas previsões com Regressão Linear, SVR, HuberRegressor e RANSACRegressor.

Brasil VS Itália

No dia 25 de março chegamos ao 30º dia do coronavírus presente no Brasil, comparando com o dia 29 de fevereiro na Itália, 30º dia do vírus prensente no país italiano temos o seguinte gráfico em relação aos números de casos confirmados por dia

O gráfico acima nos informa que a taxa de casos confirmados entre Brasil e Itália seguem em uma tendência muito similar e que devemos nos atentar, visto que já conhecemos a evolução do vírus na Itália até o 55º dia.

Uma das grandes contestações sobre o comparativo acima fica por conta da diferença populacional entre Brasil e Itália, uma vez que temos mais de 209 milhões de habitantes e a Itália possui ao menos 60, logo consequentemente é conveniente pensar que no Brasil o número de contaminados será maior e que portanto não podemos fazer a comparação dos cenários com base no número de casos por dia, porém uma forma fácil de resolvermos isto é olhando a quantidade de casos por milhões de habitantes.

Qual o número de pessoas contaminadas a cada 1 milhão de habitantes na Itália e no Brasil?

Para responder essa pergunta é fácil, basta dividirmos a quantidade de casos confirmados pelo total de milhões de habitantes, 209 para o Brasil e 60 para a Itália. Calculando essa distribuição temos o gráfico abaixo:

Do gráfico acima continuamos observando uma similaridade muito grande entre o crescimento de casos. Podemos extrair poucas informações do comparativo acima, mas o que conseguimos afirmar é que a partir do 25º dia a Itália passou a ter mais casos confirmados a cada 1 milhão de habitantes do que o Brasil. Tendo a Itália 3.81 contaminados a cada 1 milhão de habitantes e o Brasil 3.79. No entanto não podemos concluir com essas análises que o Brasil chegará ao mesmo estado que a Itália e também não podemos dizer que não chegará! Mas a similaridade de crescimento dos casos entre ambos os países é um fator preocupante e que deve ser levado em conta.

Porcentagem de novos casos comparando com Itália, China e Coréia do Sul

Uma outra comparação que podemos fazer aqui é a porcentagem de crescimento de novos casos por dia, para melhor visualização vamos utilizar apenas os últimos 7 dias no Brasil e como comparação os dias 22/02 (23º dia) até 29/02 (30º dia) na Itália:

No gráfico acima podemos notar novamente uma similaridade entre os países, sendo praticamente a única diferença o último dia no Brasil (dia 25 de março) com o dia 29 de fevereiro da Itália, onde a porcentagem brasileira reduziu em comparação ao dia anterior e a porcentagem italiana aumentou.

Porém não podemos concluir nada com essa redução da porcentagem brasileira no dia 25 de março, visto que no passado já vimos comportamentos semelhantes de baixa que logo em seguida voltaram a subir. Analisando a porcentagem dos novos casos brasileiros desde o começo temos:

Para a evolução italina temos o gráfico para os últimos 30 dias:

Vamos agora aproveitar para analisarmos os gráficos com as porcentagens de novos casos da Coréia do Sul e da China, países que como já explicamos no texto anterior, já encontram medidas eficazes para conter o avanço do vírus no país.

Como podemos observar a Coréia e a China passaram a reduzir a porcentagem de novos casos após um pico por volta de 40% a 44% respectivamente. A Itália encontrou um pico de 50% e após isso tivemos uma boa redução de novos casos. O Brasil já encontrou um pico de 55% que levou a posteriores reduções, no entanto voltou a ter outros picos de 44% e 56%, sendo este último pico seguido por três dias de redução. Devemos ficar atento ao comportamento dos próximos dias, uma vez que essa tendência pode significar um bom avanço das quarentenas parciais até agora, ou pode trazer novamente um aumento na porcentagem como já aconteceu no passado.

Previsões x Confirmados

No dia 20 de março publiquei o texto deste link onde tentei usando modelos matemáticos como Regressão Linear e SVR prever os números de casos de covid-19 confirmados no futuro. Como explicado no texto anterior estes modelos matemáticos NÃO são formas cientificamente comprovadas para analisar e prever evoluções de pandemias como o COVID-19 e o trabalho realizado anteriormente assim como o que será apresentado aqui é meramente uma hipótese de tendência e deve ser considaderado apenas como um teste. No dia 20 de março tentei prever os números total de casosdo do dia 20 até dia 3 de abril, dos dias já passados podemos ver a compração a seguir:

No dia 21/03 vemos que o número de casos reais confirmados ultrapassaram os números previstos pelo algoritmo SVR (modelo otimista) e fica abaixo da previsão da regressão linear (modelo pessimista), tendo o algoritmo SVR (modelo otimista) estando mais perto dos valores reais.

Como visto no gráfico da porcentagem de novos casos por dia, no Brasil temos em alguns momentos uma variação muito grande na quantidade de novos casos por dia, por isto para este novo estudo continuarei trazendo os modelos de Regressão Linear e SVR remodelados com os dados até o dia 26 de março e novos modelos como o algoritmo HuberRegressor que apresenta um cenário intermediário mais próximo do otimista e o algoritmo RANSACRegressor que apresenta um cenário intermediário mais próximo do pessimista. Explicações mais detalhadas sobre esses algoritmos podem ser encontrada no site do scikit-learn, mas perante qualquer dúvida deixe o seu comentário abaixo.

Novas previsões do COVID-19 no Brasil

No estudo passado ao modelar o algoritmo de regressão linear chegamos nos seguintes valores para a equação que definie o modelo

Fórmula regressão linear: m.x + b = y
m = 1.37664987
x = NUMERO_DE_CASOS_HOJE
b = –1.434746415542719
y = Total de casos no dia seguinte
1.37664987 * NUMERO_DE_CASOS_HOJE – 1.434746415542719 = Total_Casos

Após a remodelagem com os dados mais recentes, chegamos aos novos valores para a equação:

m = 1.18122808
x = NUMERO_DE_CASOS_HOJE
b = 21.296972287647748
y = Total de casos no dia seguinte
1.18122808 * NUMERO_DE_CASOS_HOJE + 21.296972287647748 = Total_Casos

O atual modelo de regressão linear alcançou o score de 0.99169, enquanto no anterior tínhamos 0.9635. O score é um coeficiente que nos informa quão bem o nosso modelo está “treinado” para os dados apresentados, sendo o valor 1 a nota máxima.

Analisando a predição de aumento de novos casos por dia em porcentagem através do cenário mais positivo, a tendência esperada é:

Logo podemos inferir que estaremos seguindo no caminho positivo caso a porcentagem de novos casos diária nos próximos sete dias se mantenha próximo ou abaixado dos 16%, um volume acima pode ser um indicador de que não estamos seguindo para o cenário mais ideal e que novas medidas devem ser tomadas.

Conclusões

Com as análises atuais é difícil prever até quando o crescimento de casos no Brasil continuará crescendo de forma rápida, pois como visto temos uma variância muito grande no número de novos casos por dia.

O que podemos concluir é que as próximos 7 dias podem ser um bom indicativo sobre o futuro do nosso cenário e um bom validador para as medidas atuais, onde uma porcentagem de novos casos diário perto ou abaixo de 16% significa que estamos seguindo para um cenário positivo, mas um número acima pode significar o contrário.

Porém ainda assim é muito difícil acreditar na análise por volta dos 16%, uma vez que temos diversos pontos que podem tendenciar negativamente este valor e as análises como:

  • O pronunciamento do presidente pedindo o fim das quarentenas (medida não recomendada e que vai contra o que outros países estão fazendo)
  • Uma desconfiança muito grande por volta dos números de casos confirmados
  • E o baixo número de testes realizados

Próximos Estudos

Para os próximos estudos trarei um acompanhamento em torno da porcentagem de novos casos diários e as próximas previsões com os novos dados, mas também teremos:

Lembrando que todo o estudo apresentado aqui pode ser encontrado no github no link abaixo:

Caso você tenha gostado deste estudo peço que se possível deixe aqui os seus aplausos e compartilhe o texto para que possamos alcançar o maior número de pessoas e demonstrar a importância das medidas com a pandemia atual. Qualquer dúvida fique à vontade para deixar um comentário.

Estudo Anterior

Parte 1: Prevendo o crescimento de casos de COVID-19 (coronavírus) no Brasil com análise de dados, gráficos e equações! — Parte 1

--

--

Caíque Coelho

A QA lover and App Developer on weekends and a Data Scientist on free time. Founder App Teste Eneagrama.