Prevendo os resultados do Emmy com Inteligência Artificial

Caíque Coelho
6 min readSep 18, 2020

Isso é muito Black Mirror!

No começo do ano validamos o uso da Inteligência Artificial na previsão dos ganhadores do Oscar, um projeto que vem de um trabalho de 3 anos e que a cada ano conseguimos evoluir um pouquinho.

Uma vez que tivemos um ótimo resultado para o Oscar, porque não nos arriscarmos prevendo o Emmy? Dia 20 de setembro é o grande dia para as artes e ciências televisivas de todo mundo no reconhecimento dos melhores programas de televisão! Eu como um bom apreciador de séries com quase um ano de vida investido na indústria televisiva, não poderia deixar a oportunidade passar ~inclusive me sigam no Tv Show Time e no Twitter para ótimas reviews sobre séries hahahaha ~

https://tvtime.com/r/1udCp

Mão na Massa ou melhor nas séries

A maior dificuldade em nosso novo contexto é a disponibilidade de dados, visto que para o Oscar possuímos um grande dataset desde 1980 com as seguintes informações:

  • Vencedores do Producers Guild of America Awards
  • Vencedores do Golden Globe
  • Tempo do filme em minutos
  • Bilheteria em dólares
  • IMDB Score
  • Score dos usuários (Metacritic)
  • Score dos críticos (Metacritic)
  • Se o filme foi produzido nos Estados Unidos
  • Classificação Etária
  • Trimestre de lançamento do filme

E para o Emmy temos um dataset desde 1949, extraído do Kaggle, porém apenas com:

  • Compania, Emissora original
  • Produtora
  • E Staffs

Por falta de tempo não conseguimos extrair os mesmos dados do Oscar para o Emmy, mas podemos gerar mais dados através das informações que temos, tais como:

  • Quantidades de produtores envolvidos
  • Quantas vezes uma produtora foi indicada ao Emmy
  • Quantas vezes uma emissora foi indicado ao Emmy
  • Quantas vezes uma pessoa ou série foi indicada ao Emmy

Os dados que temos não são os melhores do mundo e com certeza deixam a desejar, podendo levar a uma performance ruim em nossas previsões, mas para uma versão v0 feita a poucos dias do prêmio está ótimo!

De forma geral fomos dos seguintes dados

Para os dados abaixo:

Pré-Processamento dos dados

Para chegarmos em um melhor formato dos dados e por fim passarmos nossos dados para um modelo de Inteligência Artificial precisamos tratar algumas coisas:

  1. Separar os nomes dos produtores em variáveis independentes: Os nomes das produtores estão todos unidos em uma única variável com o nome producer, logo precisamos separar essas informações em mais variáveis. O máximo de produtoras envolvidas em uma produção em nosso dataset é 9, portanto teremos nove variáveis a mais, producer1 até producer9. Produções com menos produtoras terão o nome da producer1 replicada nas demais colunas.
  2. Contar a quantidade de indicações por emissora, produtora e série/pessoa: Aplicamos uma função que conta desde 1949 quantas vezes cadas emissora, produtora, série ou pessoa foi indicada ao Emmy independente da categoria, ano ou participação.
  3. Reescalando os dados: Algumas colunas podem possuir valores maiores do que outras, por exemplo a coluna maxNominees_company contém valores grandes como 2572 que indicam a quantidade de vezes que uma company foi indicada, já a coluna totalProducers terá no máximo um valor de 9. Para que o valor 2572 não tenha mais peso que 9, uma vez que essas colunas podem ser “independentes”, precisamos reescalar os dados para que as colunas estejam dentro de um mesmo limite de valores, no nosso caso iremos utilizar o algoritmo MinMaxScaller que reescala os dados para um intervalo de 0 a 1.
  4. Transformação de variáveis categóricas em numéricas: Algumas informações como Nominee, Producers, Company por serem textos precisam ser transformadas em valores numéricos para que possam ser processados pelos modelos de inteligência artificial.

Escolhendo os algoritmos de Inteligência Artificial

Como tive pouco tempo para testar diferentes algoritmos iremos utilizar para a nossa previsão um conjunto de algoritmos que iremos: treinar, analisar a acurácia no conjunto de testes, prever os resultados do emmy 2020 e por fim eleger o vencedor de cada categoria seguindo os seguintes passos:

  1. Todos os modelos gerados pelos algoritmos tentam prever os resultados de 2020, após isso todos os resultados são somados, se temos um candidato que foi previsto como vencedor mais vezes que os demais paramos aqui, caso contrário, se tivermos mais de um candidato previsto como vencedores na mesma quantidade de vezes seguimos para o passo 2.
  2. Apenas os modelos com precisão superior a 79% de acerto tentam prever os resultados de 2020, após isso todos os resultados são somados, se temos um candidato que foi previsto como vencedor mais vezes que os demais paramos aqui, caso contrário, se tivermos mais de um candidato previsto como vencedores na mesma quantidade de vezes seguimos para o passo 3.
  3. Utilizo o modelo com maior precisão de acerto para prever o resultado de 2020.

Para essa estratégia escolhi utilizar os seguintes algoritmos de Inteligência Artificial:

Previsões 2020

Para o nosso experimento iremos prever as seguintes categorias:

  • Melhor série de comédia
  • Melhor ator série de comédia
  • Melhor atriz série de comédia
  • Melhor série de drama
  • Melhor ator série de drama
  • Melhor atriz série de drama
  • Melhor animação

Hora da revelação! Quais são as suas apostas?

Melhor série de comédia: The Marvelous Mrs. Maisel

The Marvelous Mrs. Maisel

Melhor ator série de comédia: Michael Douglas como Sandy Kominsky em The Kominsky Method

Michael Douglas como Sandy Kominsky em The Kominsky Method

Melhor atriz série de comédia: Rachel Brosnahan como Mrs maisel em The Marvelous Mrs. Maisel

Rachel Brosnahan como Mrs maisel em The Marvelous Mrs. Maisel

Melhor série de drama: The Handmaid’s Tale

The Handmaid’s Tale

Melhor ator série de drama: Billy Porter como Pray Tell em Pose

Billy Porter como Pray Tell em Pose

Melhor atriz série de drama: Olivia Colman como Queen Elizabeth II em The Crown

Olivia Colman como Queen Elizabeth II em The Crown

Melhor animação: Rick And Morty

Rick And Morty

Lançamos a braba! Agora é só pegar a pipoca e esperar o dia 20 de setembro chegar para validarmos as nossas previsões!

O que precisamos melhorar?

Para o ano que vem temos dois pontos chaves para aprimorar o projeto:

  1. Enriquecer o dataset com mais informações, por exemplo com as notas das séries de alguns portais como Imdb e Metacritic
  2. Validar o melhor algoritmo de inteligência artificial e trabalhar com hiperparâmetros para focarmos em apenas um modelo

Ficou curioso pra ver o código? Só acessar o meu github no link abaixo, é tudo open source 😄 não esquece de deixar uma estrelinha ⭐️ lá e alguns aplausos por aqui 👏

--

--

Caíque Coelho

A QA lover and App Developer on weekends and a Data Scientist on free time. Founder App Teste Eneagrama.