Prevendo o real número de infectados e o fim da COVID-19 no Brasil, utilizando inteligência artificial e SIR — Parte 4

Caíque Coelho
15 min readApr 25, 2020

Bem-vindo, este texto faz parte de uma série de estudos que estou conduzindo sobre a evolução temporal em relação ao número de casos de COVID-19 no Brasil, analisando os dados com gráficos, modelos de inteligência artificial e modelos epidêmicos. Os estudos passados podem ser encontrados nos links abaixo:

Artigo 1: Prevendo o crescimento de casos de COVID-19 (coronavírus) no Brasil com análise de dados, gráficos e equações! — Parte 1

Artigo 2: Análise e predição do crescimento de casos de COVID-19 (coronavírus) no Brasil — Parte 2

Artigo 3: Análise e predições para o achatamento da curva de COVID-19 no Brasil: Uma abordagem com IA e SIR — Parte 3

Artigo 5: Inteligência artificial e SIR na predição do fim da primeira onda do coronavírus no Brasil — Parte 5

Artigo 6: Prevemos a catástrofe da COVID-19 de 2021 utilizando IA e SIR

Todos os códigos e dados utilizados neste estudo estão disponíveis no github no link a seguir:

Neste texto veremos:

  • Qual o possível real número de casos de COVID-19 no Brasil
  • Análise das previsões feitas pelos modelos de inteligência artificial e pelo modelo SIR em relação ao número real
  • Análise e correlação entre óbitos por COVID-19 e por complicações respiratórias
  • Qual o real número de óbitos e de recuperados
  • Análise e previsões de quando será o pico e quando poderemos voltar a normal
  • Se você tem pressa, pule até o final, lá você irá encontrar um resumo das conclusões! :D

Os dados utilizados são disponibilizados pela Jonhs Hopkins University neste link, também podemos encontrar os dados em tempo real no site World O Meter e dados para os estados e municípios brasileiros aqui.

Atenção: A ideia deste estudo é levantar hipóteses a partir dos dados que já temos até agora, analisando a tendência do crescimento diário de novos casos. O artigo não tem a intenção de pregar o alarmismo e deve ser interpretado como uma abordagem de estudo sem nenhuma validação ou comprovação científica.

Qual o possível real número de casos de COVID-19 no Brasil

Hoje temos diversos problemas com os dados de COVID-19 no Brasil, principalmente em relação ao real número de pessoas já infectadas e recuperadas. Entre os problemas que podemos citar temos:

  1. Poucos testes: O Brasil infelizmente não tem a capacidade de realizar um alto número de testes, logo os poucos testes que temos disponíveis são direcionados a pessoas com mais gravidade. Até o dia 20 de abril testamos 291.922 pessoas, algo em torno de 1.373 a cada 1 milhão de habitantes!
  2. Subnotificações: Por orientação do governo, hoje apenas os casos mais graves são notificados, logo pessoas que testaram positivo, mas não apresentam sintomas graves não entram para a conta.
  3. Pessoas assintomáticas e pessoas que não vão ao hospital: Temos ainda o problema de pessoas assintomáticas, ou seja, pessoas que foram contaminadas pelo coronavírus, mas nunca apresentaram o sintomas e pessoas que apresentaram sintomas tão fracos que tratam como uma gripe normal, nunca indo ao hospital fazer um teste, lembrando que esta é orientação, se você apresenta sintomas moderados de gripe permaneça em casa, pois pode ser que seja simplesmente uma gripe e se expor ao perigo de se locomover até o hospital provavelmente acabará em uma indesejada contaminação pelo coronavírus.
  4. Atraso nos resultados dos testes: Além de tudo isso ainda temos que levar em consideração um possível atraso na linha do tempo em relação a quando a pessoa foi contaminada até quando ela recebeu o resultado do teste como positivo, ou seja, hoje é considerado que uma pessoa leve em torno de 11 dias até apresentar os sintomas mais graves do COVID-19, e só após isso ela vai até o hospital fazer o teste. Levando em consideração que essa pessoa consiga fazer o teste no mesmo dia que foi ao hospital (algo que nem sempre acontece) e que o resultado fique pronto no dia seguinte (o que também pode não acontecer, já que alguns testes podem levar até 7 dias) podemos considerar um atraso de até duas semanas, 14 dias, entre a pessoa ser contaminada e ser diagnosticada como positivo para a doença. Com isso os dados que temos hoje no dia 20 de abril refletem os dados de pessoas que provavelmente foram infectadas há duas semanas! Portanto, o dado de 40743 casos de COVID-19 refletem os dados do dia 7 de abril!

Para calcularmos o real número de casos de COVID-19 no dia 20 de abril vamos primeiro tentar tratar o ponto 4 (Atraso nos resultados dos testes), para isso vamos projetar o possível número de casos para daqui 14 dias! Nesta projeção iremos utilizar o modelo SIR uma vez que este foi o que ficou mais próximo dos números de casos confirmados entre 09/04 e 15/04 de acordo com o nosso estudo passado.

Utilizando o modelo SIR com os dados atuais, temos uma projeção de 83.813 casos daqui 14 dias (dia 4 de maio), uma diferença de 43.070 casos, 106%! Essa seria a nossa diferença levando em consideração o atraso entre a pessoa ser contaminada até ser diagnosticada. Se olharmos que a menor porcentagem de novos casos por dia é de 5% e projetarmos um aumento de 5% por dia em até 14 dias teríamos 84701, portanto o modelo SIR está levando em consideração que temos uma redução na porcentagem de novos casos por dia, abaixo de 5%.

E para tentarmos reduzir os efeitos dos pontos 1 ao 3, poucos testes, subnotificações, pessoas assintomáticas e pessoas que não vão ao hospital, iremos levar em consideração os países que estão realizando o maior número de testes possíveis por 1 milhão de habitantes e por fim vamos tentar chegar em uma taxa de mortalidade entre os países que mais realizaram testes para o maior número de possíveis de pessoas, independente da situação dos sintomas. Logo a taxa de mortalidade será menor que a do Brasil.

Para isto vamos olhar a relação entre total de casos confirmados e total de testes, nos países que mais fizeram testes e para países que mais fizeram testes por 1 milhão de habitantes. Para evitarmos outliers(países que conseguiram evitar a pandemia, por exemplo), vamos analisar apenas países que tiveram uma quantidade considerável de casos confirmados.

A Islândia foi o país que mais fez testes por 1 milhão de habitantes, a cada 24 testes feitos, diagnosticou uma pessoa com COVID-19, sendo o país com a segunda menor taxa de infectados por testes, dos países escolhidos. A menor taxa fica com os Emirados Árabes, que identifica uma pessoa infectada a cada 109 testes.

Hoje no Brasil a proporção é de 1 infectado a cada 7 testes, a tendência esperada é que quanto mais testes sejam feitos menor será essa taxa, ou seja teremos mais testes sendo realizados para identificar uma pessoa infectada, uma vez que só estamos realizando testes hoje em pessoas com alta probabilidade de estarem infectadas. Como a taxa dos Emirados Árabes ficou muito mais baixa que as demais e as outras apresentam uma certa proximidade a taxa brasileira, iremos utilizar a média entre a taxa da Islândia e a de Luxemburgo, o que nos dá uma taxa de 1 infectado a cada 17 testes.

Para chegarmos em 83.813 casos confirmados estimamos que o Brasil teria que ter realizado 598 mil testes, para mantermos a proporção de 1 infectado a cada 7 testes. Dado isso para chegarmos ao real número de infectados estimando as pessoas assintomáticas e as sintomáticas que não fizeram testes, vamos olhar a porcentagem de letalidade.

Hoje ainda não existe um consenso forte sobre a taxa de letalidade do COVID-19 alguns estudos dizem em torno de 0.1% a 0.5%, no entanto quando olhamos os países que mais testaram e tiveram casos consideráveis, vemos uma porcentagem variando fortemente entre 0.5% até 6%, no mundo essa taxa é de 6.86%. Por questões de confiabilidade vamos olhar a porcentagem de letalidade da Islândia 0.56% e de Luxemburgo 2.10% e vamos adotar uma porcentagem de 1.33% que seria a porcentagem da Islândia + Luxemburgo dividido por dois (2.66/2 = 1.33), ou seja, de todas as pessoas diagnosticadas como positivo, 1.33% infelizmente vão à óbito. Por simplicidade não vamos levar em conta a faixa etária dos países, mas como o Brasil tem uma faixa etária mais jovem que vários outros países, o esperado é que a letalidade da doença seja menor aqui.

No Brasil essa porcentagem de letalidade chega a 6.34% no dia 20 de abril, porém essa porcentagem é influenciada pelos poucos testes que fazemos, uma vez que testamos e contamos apenas as pessoas com sintomas mais graves, é esperado que taxa de letalidade dentro dessas pessoas contabilizadas seja maior, logo a pergunta que precisamos nos fazer aqui para chegar ao número real de pessoas infectadas no Brasil é:

Quantos testes o Brasil precisaria ter feito para chegar em uma porcentagem de letalidade de 1.33%?

Podemos responder essa pergunta com uma regra de três invertida, dado que o Brasil realizou 598 mil testes e a taxa de letalidade é de 6.34%, logo temos:

598 mil testes = 6.34% letalidadex testes = 1.33% letalidade

Na comparação acima temos que aplicar a regra de três invertida, uma vez que quanto mais testes aplicamos o esperado é que a porcentagem de letalidade diminua, invertendo o lado direito, temos:

598 mil testes = 1.33% letalidadex testes = 6.34% letalidade

Resolvendo a regra de três temos que x é 2.850.616, ou seja, teríamos que ter realizado 2.850.616 testes até chegar em uma porcentagem de letalidade de 1.33%. Agora que sabemos quantos testes teríamos que ter feito para chegar na letalidade esperada, podemos aplicar a taxa de infectado/testes de 1 para 17, logo para 2.850.616 testes realizados, teríamos:

167.683 casos de COVID-19 confirmados no Brasil!

168 mil casos representa uma diferença de 311% dos números confirmados até dia 20 de abril (40.743 casos), uma diferença próxima a 4 vezes o número informado pelo governo. Alguns estudos como o do Covid-19 Brasil e Núcleo de Operações e Inteligência em Saúde (NOIS) apontam que esse número seria entre 12 a 15 vezes maior.

Análise e correlação entre óbitos por COVID-19 e por complicações respiratórias

No dia 20 de abril o Brasil contabilizava 2.587 óbitos por COVID-19 para o total de 40.743 casos confirmados, seguindo a linha de previsão de que deveríamos ter 167.683 mil casos confirmados no dia 20 de abril, removendo a diferença de tempo entre as pessoas terem contraído o vírus e serem diagnosticadas (14 dias) e tentando remover a influência da subnotificação, o esperado é que a porcentagem de letalidade seja de 1.33% , para 167.683 mil casos. Antes de chegarmos ao real valor de óbito, vamos descartar da quantidade de casos ativos a porcentagem de óbitos já conhecidos, para isso vamos reduzir 41 mil casos dos 167 mil, sobrando 126 mil e vamos aplicar a porcentagem de 1.33 para os 126, o que nos dá 1.676 óbitos ainda não contabilizados, que somados aos 2587 já conhecidos nos resulta um total de 4263 óbitos, uma diferença de 65% para o registro atual do governo.

Um ponto interessante a ser ressaltado aqui é que infelizmente algumas pessoas estão indo à óbito sem o resultado do teste para COVID-19 e muitas sem nunca terem feito o teste, o que pode levar a óbitos registrados como pneumonia ou insuficiência respiratória. Para analisarmos uma possível correlação neste número, extrai do Portal da Transparência, disponibilizado pelo governo, os números de óbitos por pneumonia e insuficiência respiratória para os meses de março e abril entre 2019 e 2020 e podemos ver que no estado de São Paulo principalmente no mês de março que já está fechado, um aumento considerável no aumento de óbitos registrados como insuficiência respiratória.

Para pneumonia não tivemos uma variação significativa no período entre 2019 e 2020, mas para óbitos por insuficiência respiratória notamos uma diferença significativa entre final de março e abril, com uma variação entre 50 a 100 casos, diferença a qual pode ser correlacionada a óbitos por COVID-19 sem testes.

Além dos gráficos acima para o estado de São Paulo, temos diversas reportagens que apontam para um número muito discrepante entre 2019 e 2020 para óbitos por pneumonia ou insuficiência respiratória em outros estados:

Maranhão: 712 mortes em 2019 e 461 só este ano por insuficiência respiratória

Mato Grosso do Sul: Com pandemia, MS registrou em 3 meses quase 80% de todas as mortes por pneumonia de 2019

Minas Gerais: Mortes por insuficiência respiratória cresceram 729% em Minas Gerais

Brasil: Em um mês, Brasil tem alta de 2.239 mortes por problemas respiratórios

Este aumento de óbitos também pode estar relacionado com falta de UTIs, falta de respiradores, falta de remédios ou até falta de profissionais disponíveis, uma vez que com o COVID-19 lotando os hospitais, todos estes recursos passam a ser disputados por ambas doenças.

Sobre os Recuperados

Até dia 20 de abril temos registrados 25.318 recuperados da COVID-19 no Brasil, para um total de 292 mil testes. Com 40.743 casos confirmados, a nossa porcentagem de recuperados para confirmados é de 62%, ou seja, para cada 100 pessoas infectadas, temos 62 pessoas recuperadas.

Porém vamos utilizar a taxa de recuperação da Islândia, o país que mais realizou testes por milhões de habitantes e possui uma taxa de recuperação de 81% ou seja, a cada 100 pessoas infectadas, 81 já estão recuperadas. A ideia de utilizar a Islândia segue o raciocínio em que sabemos que o Brasil testa apenas os casos mais graves, logo a taxa de mortalidade é maior e as pessoas diagnosticadas levam mais tempo para serem recuperadas, já a Islândia como realiza mais testes tem uma taxa de recuperação maior, dado que a letalidade é menor e o tempo de recuperação das pessoas diagnosticadas também é menor.

Utilizando o número previsto de 168 mil casos confirmados, basta aplicarmos a taxa de 81% para os 168 mil casos o que nos dá 136 mil pessoas recuperadas! Uma diferença de 437% para o número registrado pelo governo!

Em resumo para 20 de abril temos (dados que serão projetados pelo governo por volta do dia 4 de maio, caso o número de testes aumentem)

Análise e previsões de quando será o pico e quando poderemos voltar a normal

Por fim com esses dados podemos tentar prever quando teremos o pico de casos ativos e por conseguinte quando poderemos voltar ao normal. Para este momento vamos levantar dois cenários:

  1. Utilizando os dados atuais do dia 20 de abril disponibilizados pelo governo;
  2. Utilizando os dados que inferimos aqui, caso tivéssemos realizado mais testes e analisando os dados sem o atraso na linha do tempo, o que nos dá um cenário de certa forma mais otimista, uma vez que que acreditamos que podemos estar mais à frente no tempo da pandemia do que os dados oficiais do governo.

Utilizando o modelo SIR (se você ainda não sabe o que é o SIR veja a explicação no estudo passado) para prever, temos:

1. Utilizando os dados atuais do dia 20 de abril disponibilizados pelo governo

No primeiro cenário com dados do governo, vemos que ainda teríamos um longo caminho até alcançarmos o pico de infectados ativos, algo por volta de 230 dias, ou seja 7 meses e meio, o que seria apenas no final de novembro.

Analisando o segundo cenário com os dados previstos aqui, temos:

2. Utilizando os dados que inferimos aqui

Vemos que o pico estaria entre 45 a 50 a dias o que seria daqui um mês e meio, em 4 de junho, o que nos deixa com uma previsão mais próxima de alguns estudos que apontam um pico entre 29 de abril e 5 de maio para o estado de São Paulo, como os estudos do Samy Dana e da Loft.

Lembrando que a previsão acima foi feita para o Brasil inteiro e não exclusivamente para São Paulo, porém acreditamos que essa previsão seja muito próxima para São Paulo, uma vez que o estado influencia fortemente no número de casos no Brasil, porém por tomar algumas precauções mais severas de distanciamento e por estar mais a frente no tempo da pandemia do que outros estados, o esperado é que o pico em São Paulo ocorra um pouco antes do pico do Brasil

Para uma melhor análise vamos encontrar o cenário dois (com mais testes e sem atraso na linha de tempo) apenas para o estado de São Paulo, que hoje possui 16.740 casos confirmados, 1.345 óbitos, e porcentagem de mortalidade de 8%. Aplicaremos a regra de três invertida para descobrir a quantidade de casos não reportados até chegar na porcentagem de mortalidade ideal de 1.33%

16740 = 8
x = 1.33

Invertendo

16740 = 1.33
x = 8
x = 100.691

Aplicando a taxa de recuperação de 81% temos, 81.559 recuperados, 19.132 casos ativos e 1339 óbitos (dados que serão projetados pelo governo por volta do dia 4 de maio), chegando ao gráfico a seguir

O gráfico é muito similar ao do Brasil, porém temos alguns dias a menos até o pico, algo próximo a 35 dias, que seria ali pelo dia 29 de maio. Idealmente o momento para encerrar o isolamento social não é no pico, portanto o ideal para diminuir a restrição seria algumas semanas após o pico, entre duas ou três semanas, no entanto só devemos considerar a epidemia como contida quando tivermos 60% da população recuperada o que acontece logo depois que a curva de infectados e a de recuperados se encontra, algo daqui aproximadamente 100 dias no começo de agosto para São Paulo. Por tanto devemos continuar em alerta até lá, por mais que já não tenhamos restrições de isolamento.

Antes de encerrarmos, uma notícia positiva, de acordo com o nosso estudo passado, prevemos que para alcançarmos um achatamento da curva a porcentagem de novos casos por dia deveria ficar abaixo de 13%, quando fizemos a análise estávamos em um pico de 15%, de lá para cá tivemos uma boa redução na porcentagem de casos diários, tendo um pico máximo de 12% e uma média de 7.5%. Logo com essa redução na porcentagem de novos casos por dia, caminhamos para o achatamento da curva, para termos certeza de que continuamos neste caminho a porcentagem nos próximos dias devem ficar próxima de 7.5%, preferencialmente abaixo!

RESUMINDO AS CONCLUSÕES

  1. Do lado matemático, temos que os modelo epidêmico SIR faz projeções mais próximas dos valores reais, do que os modelos de inteligência artificial modelados a partir dos algoritmos: Linear Regression e SVR do sklearn.
  2. Concluímos que pode sim haver uma subnotificação notável nos óbitos por COVID-19, onde 1.676 óbitos até o dia 20 de abril podem ter sido contabilizados como insuficiência respiratória ao invés do COVID-19, portanto o número indicado pelo governo de 2.587 pode ser de 4.263 óbitos!
  3. O Brasil testa pouco e com isso a nossa porcentagem de mortalidade é de 6.4% enquanto deveria ser algo próxima a 1.33%.
  4. A falta de testes impossibilita a contagem de pessoas recuperadas, enquanto o governo reporta 25.318 recuperados, acreditamos que já tenhamos no dia 20 de abril 136.000!
  5. O número de casos confirmados reportados pelo governo é algo 4 vezes menor que o número real, o governo contabiliza 40.743, enquanto o número real deve ser algo próximo a 168.000!
  6. O pico dos casos ativos no Brasil todo deve ser alcançado em entre 45 a 50 a dias o que seria daqui um mês e meio, em 4 de junho!
  7. O pico para São Paulo fica próximo a 35 dias, dia 29 de maio! O relaxamento do distanciamento social deveria começar a ser feito gradativamente após algumas semanas desta data.
  8. Iremos conter a epidemia apenas daqui aproximadamente 100 dias, no começo de agosto para São Paulo, o que significa que devemos tomar um bom cuidado até lá!

Se você gostou deste estudo deixe aqui os seus aplausos a esquerda ou abaixo. Qualquer dúvida, comentário ou feedback estou a disposição através dos comentários e continuem se cuidando :D

Em breve voltarei com mais estudos focado na utilização de outros algoritmos de Inteligência Artificial para previsões dos casos e agumas análises sobre os últimos experimentos de remédios e vacinas contra o coronavírus.

Lembrando que todos os códigos e dados utilizados neste estudo estão disponíveis no github no link a seguir:

--

--

Caíque Coelho

A QA lover and App Developer on weekends and a Data Scientist on free time. Founder App Teste Eneagrama.