Prevendo o crescimento de casos de COVID-19 (coronavírus) no Brasil com análise de dados, gráficos e equações! — Parte 1

Caíque Coelho
13 min readMar 20, 2020

Bem-vindo, este texto faz parte de uma série de estudos que estou conduzindo sobre a evolução temporal em relação ao número de casos de COVID-19 no Brasil. Os estudos passados podem ser encontrados nos links abaixo:

Artigo 2: Análise e predição do crescimento de casos de COVID-19 (coronavírus) no Brasil — Parte 2

Artigo 3: Análise e predições para o achatamento da curva de COVID-19 no Brasil: Uma abordagem com IA e SIR — Parte 3

Artigo 4: Prevendo o real número de infectados e o fim da COVID-19 no Brasil, utilizando inteligência artificial e SIR — Parte 4

Artigo 5: Inteligência artificial e SIR na predição do fim da primeira onda do coronavírus no Brasil — Parte 5

Artigo 6: Prevemos a catástrofe da COVID-19 de 2021 utilizando IA e SIR — Parte 6

Com o crescimento exponencial dos casos de COVID-19 ao redor do mundo e uma possível melhoria do cenário na China, existem algumas perguntas importantes que deveríamos estar nos fazendo por aqui, como:

  1. Qual a tendência de crescimento de novos casos no Brasil?
  2. Até onde este crescimento de novo casos pode se sustentar?

A ideia deste estudo é levantar hipóteses a partir dos dados que já temos até agora, analisando a tendência do crescimento diário de novos casos afim de nos alertarmos para a necessidade de medidas mais fortes na contenção do vírus.

Esse texto faz parte de uma sequência de estudos que irei lançar sobre os dados que envolvem o COVID-19 no Brarsil. A parte 2 já está pronta e poder encontrada no link abaixo:

Parte 2: Análise e predição do crescimento de casos de COVID-19 (coronavírus) no Brasil — Parte 2

Respondendo as perguntas acima podemos chegar em várias hipóteses importantes para este momento, como por exemplo validar se as medidas governamentais no Brasil estão sendo o suficiente!

Além disso, podemos com base em possíveis previsões saber se compromissos futuros podem estar comprometidos devido a pandemia, caso a tendência de crescimento continue. Por exemplo, será que terei que desmarcar uma viagem programada para o dia 25 de abril?

Com o primeiro caso confirmado dia 25 de fevereiro (mais conhecido como dia 0 da pandemia no Brasil), temos até o dia 18 de março 509 casos de coronavírus confirmados. Com posse das informações de quantidade de casos por dia, temos um famoso conjunto de observações muito usado na área de Data Science e IA conhecido como Série Temporal ou do inglês Time Series o qual poderemos usar aqui para fazer diversas análises!

Sendo a China a origem do vírus, hoje o país já declara possuir a tendência de crescimento dos casos em controle, e acreditam ter o surto controlado até abril, fonte aqui. Seguindo esta onda o Estados Unidos acredita que terá o surto controlado até o meio do ano, fonte aqui. E a OMS declarou no dia 14 de fevereiro que a epidemia estava controlada no resto mundo, fonte.

Com base nas afirmações acima, o objetivo desta pesquisa é tentar entender através da série temporal de casos da China em que momento a tendência de crescimento de novos casos começou a ficar controlada, generalizando para uma equação para que possamos comparar a evolução da pandemia na China com os casos no Brasil, Estados Unidos e no mundo. Aproveitando vamos dar uma olhada também nos dados na Itália, um dos países mais afetados.

Todo o trabalho explicado aqui pode ser encontrado em código aberto no link a seguir:

Analisando tendências de crescimento por gráficos

Vamos começar analisando os dados da China em comparação com os dados da Itália, Estados Unidos e Brasil

Seguindo o nosso dataset de casos disponibilizado pela Jonhs Hopkins University neste link, e usando também os dados do site World O Meter a China registrou dia 22 de janeiro 444 casos de COVID-19, considerado no nosso dataset como o primeiro dia com casos registrados na China e no dia 18 de março, registra 67800 casos. Evolução que podemos ver no gráfico abaixo

Podemos observar que a tendência de crescimento de casos na China cresceu exponencialmente, com média de 2346 novos casos por dia, até alcançar uma certa barreira de resistência a partir dos 55.000 casos, passando a ter uma média de 384 novos casos por dia.

Comparando o gráfico de casos da China com a Itália, Estados Unidos e Brasil, temos o plot abaixo

Para fazer a análise deste gráfico é importante saber que o tamanho das “linhas” são diferentes, pois estamos levando em consideração no eixo X a quantidade de dias em o que o vírus foi confirmado no Brasil, ou seja, 23 dias até o dia 18 de março. Na China e nos Estados Unidos o primeiro caso foi confirmado a mais de 50 dias, na Itália há 48 dias e no Brasil a pouco mais de 20 dias. Além disso outra observação importante é que em nosso dataset temos a China com 444 casos registrados desde o primeiro dia, enquanto nos outros países os registros iniciaram com apenas 1 caso e foram evoluindo linearmente.

Com essas observações em mente, conseguimos extrair algumas informações importantes, principalmente observando a semelhança dos gráficos entre Itália e China:

  1. Em um certo momento do tempo ambos os gráficos contabilizam poucos novos casos de um dia para outro, mas logo em sequência vemos um crescimento mais elevado do que a tendência passada. Talvez este ponto no tempo represente uma mudança na estratégia na realização de testes para identificação de novos casos nos países, como por exemplo a necessidade de se relizar testes na maior quantidade de pessoas possível.
  2. Ambos crescimentos são exponenciais a partir de algum momento, algo que podemos notar também no crescimento dos casos no Estados Unidos a partir do dia 46 do vírus no país.
  3. A Itália ainda não encontrou uma possível barreira de resistência para novos casos, mas está próxima! Em comparação com o histórico da China, a interpretação do gráfico nos leva a acreditar que o país possa ainda ter pela frente 3 a 5 dias de crescimento elevado de novos casos até encontrar uma barreira e controlar a propagação do vírus.
  4. Nos Estados Unidos aparentemente só está começando! O país controlou bem o crescimento até o dia 6 de março, apresentando uma média de 6 novos casos por dia, porém depois disso a média cresceu para 671. Olhando a quantidade de casos entre o dias 5, 6 e 7 de março temos respectivamente 217, 262 e 402, ou seja, um crescimento de 20.7% entre os dias 5 e 6 e de 53% entre os dias 6 e 7 de março! O que me leva a crer que os Estados Unidos ainda terá um tempo de evolução na crise, como obervado a China encontrou uma barreira de crescimento quando passou a ter uma média de 384 novos casos por dia, observando os últimos 3 dias no Estados Unidos, temos uma média de 1577 novos casos por dia. Além disso se compararmos os gráficos entre Estados Unidos, China e Itália, vemos que o crescimento no país americano começa a seguir padrões já vistos.
  5. Agora temos o caso mais alarmante e que gostaria de chamar atenção, Brasil x Itália:

Isolando os dois gráficos temos uma noção mais clara do problema. Como vimos o gráfico da Itália segue a tendência do crescimento dos casos na China e deixa margem para mais dias de crescimento de novos casos de forma exponencial. Comparando o gráfico do Brasil com a Itália, vemos que no começo o Brasil se comportou igual, porém a partir do 16º dia do vírus no Brasil o crescimento de novos casos passa a ser mais exponencial do que na Itália. Enquanto a Itália tinha apenas 62 casos confirmados no 23º dia do vírus, sendo dia 18 de março o 23º do vírus no Brasil, contamos com 509 casos confirmados, ou seja, uma diferença de 720.9% de novos casos no Brasil em relação a Itália.

Com base neste número podemos notar que caso medidas drásticas não sejam tomadas imediatamente, o número de casos no Brasil alcançará o número italiano em um intervalo de tempo muito menor. O que fica mais claro no gráfico abaixo onde mostramos apenas os primeiros 23 dias da Itália em comparação com o Brasil

Prevendo o crescimento de novos casos no Brasil com algoritmos de regressão

Uma vez que temos uma série temporal, é possível utilizar algumas abordagens como deep learning com Tensor Flow ou alguns modelos de regressão linear do Sklearn como LinearRegression, Lasso, DecisionTreeRegressor e etc para entendermos a tendência do gráfico e realizar previsões futuras.

Para realizarmos este estudo iremos utilizar o algoritmo LinearRegression, o qual tenta encontrar uma função de crescimento linear do tipo:

m.x + b = y

Onde y é a quantidade de casos prevista para dado uma informação x

Em x podemos utilizar algumas possibilidades de variávieis como:

  • Quantidade de dias do primeiro registro até agora do coronoavirus no país
  • Quantidade de casos no passado, no dia anterior ou atual por exemplo
  • Quantidade de novos casos por dia
  • Ou até algumas combinações como por exemplo (novos casos, total casos)

Para este estudo resolvi utilizar apenas a quantidade de casos passados conhecidos para a variável X, após alguns testes essa informação demonstrou gerar bons resultados de predição.

Utilizando este modelo temos a informação que ontem dia 18 de março tivemos 509 casos confirmados, utilizando este dado como informação de entrada na variável X e no modelo temos uma previsão que hoje dia 19 de março fecharemos o dia com 699 casos! Utilizando o algoritmo de regressão linear do Sklearn para analisar todos os casos registrados de coronavírus no país por dia, desde o primeiro dia até agora, o algoritmo nos retorna um modelo que representa uma equação, a qual tenta generalizar a tendência de crescimento de acordo com o histórico e possibilitar a previsão de novos casos. Com isso temos:

m.x + b = y
m = 1.37664987
x = NUMERO_DE_CASOS_HOJE
b = –1.434746415542719
y = Total de casos no dia seguinte
1.37664987 * NUMERO_DE_CASOS_HOJE – 1.434746415542719 = Total_CasosLogo, para a amanhã temos:1.37664987 x 509 – 1.434746415542719 = 699

Também podemos utilizar aqui o modelo SVR Linear, um algoritmo mais robusto que apresenta resultados mais otimistas para os nossos dados, fechando uma previsão de 627 casos hoje.

Analisando a tendência, caso medidas não sejam tomadas para conter o avanço da propagação do vírus, o crescimento continuará o mesmo como observado na equação acima, e com isto podemos calcular uma possível previsão futura para os próximos 15 dias, ou seja, até dia 04 de abril, com os seguintes cenários:

  • Modelo mais pessimista (LinearRegression): 61070 casos
1.37664987 * NUMERO_DE_CASOS_HOJE – 1.434746415542719 = Total_Casos
  • Modelo mais otimista (SVR): 11693 casos

Comparando com a evolução da Itália temos:

Tentando prever quando o Brasil controlará a crise da pandemia

Esta é uma previsão muito difícil de se fazer e arriscada! Não acredito que seria possível montarmos hoje um modelo ou uma equação muito assertiva para prever quando este controle será alcançado, porém podemos afirmar com base nos gráficos e históricos de outros países que estão enfrentando a epidemia a mais tempo e que começam a chegar em um momento de controle, que nós ainda temos um bom caminho pela frente e precisamos tomar medidas mais drásticas!

Olhando o histórico da China e da Coreia do Sul, países que demonstram atualmente uma boa evolução, tendo a China apresentando que não houve nenhum novo caso do COVID-19 pela primeira vez ontem, dia 18 de março na província de Hubei, epicentro da epidemia! Vemos que estes países precisaram de um intervalo de tempo até apresentarem uma evolução positiva, sendo necessário 28 dias para a China (19/02) e 47 dias para a Coreia do Sul (09/03) até apresentarem uma possível barreira de resistência contra novos casos, como podemos conferir abaixo:

Logo, isto me leva a acreditar que por estarmos no 24º dia do vírus no Brasil (19/03) ainda teremos uma caminhada entre 15 a 23 dias até alcançarmos uma possível contenção do vírus seguindo a tendência até agora!

Respondendo as perguntas iniciais

Qual a tendência de crescimento de novos casos no Brasil?

Hoje a tendência é de crescimento exponencial! Sem visibilidade de desaceleramento, pelo contratrário, prevemos que hoje, dia 19 de março iremos fechar o dia com 699 casos confirmados. E caso novas medidas não sejam tomadas, teremos novos casos seguindo a tendência conhecida até agora, evoluindo para 961, 1321, 1818…em diante!

2. Até onde este crescimento de novos casos pode se sustentar?

É difícil e arriscado afirmar, mas com base em países que já estão alcançando um controle de novos casos e analisando a tendência do crescimento de casos, o previsto é que o Brasil ainda tenha por volta de 15 a 23 dias até alcançar um possível controle. Em um cenário de tendência mais positiva poderemos ver um possível controle a partir do dia 3 de abril! E em um possível cenário mais negativo esse controle só será alcançado por volta do dia 11 de abril!

Além disso também foi possível levantar a hipótese de que a Itália passará por mais 3 a 5 dias de novos casos elevados e que os Estados Unidos assim como o Brasil ainda terá algum tempo pela frente para encontrar uma barreira de resistência o que corrobora a informação citada no início deste artigo em que o governo americano acredita que só irá controlar o surto por volta do meio do ano!

O que sabemos e o que podemos fazer?

O COVID-19 tem alto nível de transmissão, uma pessoa contaminada pode contaminar até 5 pessoas! É uma progressão geométrica de razão igual a 5!

Portanto a principal medida deve estar em isolar as pessoas contaminadas. Como podemos ver abaixo, países que implementaram medidas de contenção como por exemplo a quarentena de todas as pessoas em casa, alcançam um bom controle na propagação do vírus logo em sequência.

Além disso podemos ver na simulação abaixo feita pelo The Washington Post como a propagação acontece de forma muito diferente em países sem quarentena e com quarentena.

Sem quarentena:

Com quarentena, onde 1 em cada 8 pessoas não estão em quarentena

Também sabemos que pessoas contaminadas podem se recuperar desenvolvendo anticorpos e deixando de transmitir o vírus, mas até a total recuperação pode ser necessário um isolamento de até 14 dias desta pessoa! Além disso é importante ressaltar que pessoas assintomáticas podem sim estar contaminadas e podem transmitir, por isso é muito importante evitar o contato físico com até pessoas da família, sempre lavando as mãos e não tocando os olhos, boca e nariz.

A verdade é que neste momento e diante da evolução do COVID-19 nas principais cidades do país, só medidas drásticas serão capazes de conter o avanço, conforme o estudo neste link.

Acredito que analisando medidas já tomadas em outros países as mais valiosas no momento são:

  1. Teste o máximo possível: Já existem estudos que mostram que as principais transmissões acabam ocorrendo a partir de pessoas assintomáticas, por isso é importante testar o maior número possível de pessoas para identificar os focos de transmissão e isolá-los!
  2. Não saia de casa: Se você não tem necessidade de sair de casa para trabalhar ou comprar alimentos, não saia! Por mais que o país ainda não tenha determinado o isolamento obrigatório, o qual acredito que já deveria ter sido feito para cidades como São Paulo, juntos podemos evitar que a transmissão continue na tendência vista até agora e possa recuar! Caso você seja um empregador faça o máximo de esforço possível para liberar os seus funcionários por pelo menos uma semana para que possamos avaliar o avanço nos próximos dias. A verdade é que quanto mais rápido fizermos o isolamento e contermos a transmissão, mais rápido poderemos voltar ao normal!
  3. Compras de alcool em gel e alimentos limitada por pessoa: Em momentos de pandemia, a histeria e desespero acaba por tomar conta e vemos pessoas comprando caixas de álcool em gel enquanto outras não conseguem comprar uma unidade (eu sou uma dessas pessoas). Aqui vale lembrar que não adianta nada vocễ estar esterilizado se o seu vizinho, porteiro ou amigo não está!

Com este estudo espero alertar as pessoas e autoridades que a evolução dos casos no Brasil é muito séria e precisamos sim de decisões drásticas imediatamente! Espero que juntos possamos passar por esse momento difícil! Ademais evitem contato físico, abraços, apertos de mão, lavem sempre as mãos e evitem o contato com o rosto!

Feedbacks, sugestões ou elogios são sempre bem recebidos nos comentários! Quando possível voltarei com novas análises sobre como a tendência tem seguido diariamente e com novas ações que possam contribuir positivamente!

Novos Estudos já estão disponíveis!

Parte 2: Análise e predição do crescimento de casos de COVID-19 (coronavírus) no Brasil — Parte 2

Agradecimento especial a Mayara Campos por ter me ajudado na coleta de vários artigos que utilizei como referência.

Lembrando que todo o código dos estudos é aberto no link a seguir:

--

--

Caíque Coelho

A QA lover and App Developer on weekends and a Data Scientist on free time. Founder App Teste Eneagrama.