Prevendo os resultados do Emmy com Inteligência Artificial

6 min readSep 18, 2020

Isso é muito Black Mirror!

No começo do ano validamos o uso da Inteligência Artificial na previsão dos ganhadores do Oscar, um projeto que vem de um trabalho de 3 anos e que a cada ano conseguimos evoluir um pouquinho.

Uma vez que tivemos um ótimo resultado para o Oscar, porque não nos arriscarmos prevendo o Emmy? Dia 20 de setembro é o grande dia para as artes e ciências televisivas de todo mundo no reconhecimento dos melhores programas de televisão! Eu como um bom apreciador de séries com quase um ano de vida investido na indústria televisiva, não poderia deixar a oportunidade passar ~inclusive me sigam no Tv Show Time e no Twitter para ótimas reviews sobre séries hahahaha ~

Mão na Massa ou melhor nas séries

A maior dificuldade em nosso novo contexto é a disponibilidade de dados, visto que para o Oscar possuímos um grande dataset desde 1980 com as seguintes informações:

Vencedores do Producers Guild of America Awards
Vencedores do Golden Globe
Tempo do filme em minutos
Bilheteria em dólares
IMDB Score
Score dos usuários (Metacritic)
Score dos críticos (Metacritic)
Se o filme foi produzido nos Estados Unidos
Classificação Etária
Trimestre de lançamento do filme

E para o Emmy temos um dataset desde 1949, extraído do Kaggle, porém apenas com:

Compania, Emissora original
Produtora
E Staffs

Por falta de tempo não conseguimos extrair os mesmos dados do Oscar para o Emmy, mas podemos gerar mais dados através das informações que temos, tais como:

Quantidades de produtores envolvidos
Quantas vezes uma produtora foi indicada ao Emmy
Quantas vezes uma emissora foi indicado ao Emmy
Quantas vezes uma pessoa ou série foi indicada ao Emmy

Os dados que temos não são os melhores do mundo e com certeza deixam a desejar, podendo levar a uma performance ruim em nossas previsões, mas para uma versão v0 feita a poucos dias do prêmio está ótimo!

De forma geral fomos dos seguintes dados

Para os dados abaixo:

Pré-Processamento dos dados

Para chegarmos em um melhor formato dos dados e por fim passarmos nossos dados para um modelo de Inteligência Artificial precisamos tratar algumas coisas:

Separar os nomes dos produtores em variáveis independentes: Os nomes das produtores estão todos unidos em uma única variável com o nome producer, logo precisamos separar essas informações em mais variáveis. O máximo de produtoras envolvidas em uma produção em nosso dataset é 9, portanto teremos nove variáveis a mais, producer1 até producer9. Produções com menos produtoras terão o nome da producer1 replicada nas demais colunas.
Contar a quantidade de indicações por emissora, produtora e série/pessoa: Aplicamos uma função que conta desde 1949 quantas vezes cadas emissora, produtora, série ou pessoa foi indicada ao Emmy independente da categoria, ano ou participação.
Reescalando os dados: Algumas colunas podem possuir valores maiores do que outras, por exemplo a coluna maxNominees_company contém valores grandes como 2572 que indicam a quantidade de vezes que uma company foi indicada, já a coluna totalProducers terá no máximo um valor de 9. Para que o valor 2572 não tenha mais peso que 9, uma vez que essas colunas podem ser “independentes”, precisamos reescalar os dados para que as colunas estejam dentro de um mesmo limite de valores, no nosso caso iremos utilizar o algoritmo MinMaxScaller que reescala os dados para um intervalo de 0 a 1.
Transformação de variáveis categóricas em numéricas: Algumas informações como Nominee, Producers, Company por serem textos precisam ser transformadas em valores numéricos para que possam ser processados pelos modelos de inteligência artificial.

Escolhendo os algoritmos de Inteligência Artificial

Como tive pouco tempo para testar diferentes algoritmos iremos utilizar para a nossa previsão um conjunto de algoritmos que iremos: treinar, analisar a acurácia no conjunto de testes, prever os resultados do emmy 2020 e por fim eleger o vencedor de cada categoria seguindo os seguintes passos:

Todos os modelos gerados pelos algoritmos tentam prever os resultados de 2020, após isso todos os resultados são somados, se temos um candidato que foi previsto como vencedor mais vezes que os demais paramos aqui, caso contrário, se tivermos mais de um candidato previsto como vencedores na mesma quantidade de vezes seguimos para o passo 2.
Apenas os modelos com precisão superior a 79% de acerto tentam prever os resultados de 2020, após isso todos os resultados são somados, se temos um candidato que foi previsto como vencedor mais vezes que os demais paramos aqui, caso contrário, se tivermos mais de um candidato previsto como vencedores na mesma quantidade de vezes seguimos para o passo 3.
Utilizo o modelo com maior precisão de acerto para prever o resultado de 2020.

Para essa estratégia escolhi utilizar os seguintes algoritmos de Inteligência Artificial:

Previsões 2020

Para o nosso experimento iremos prever as seguintes categorias:

Melhor série de comédia
Melhor ator série de comédia
Melhor atriz série de comédia
Melhor série de drama
Melhor ator série de drama
Melhor atriz série de drama
Melhor animação

Hora da revelação! Quais são as suas apostas?

Melhor série de comédia: The Marvelous Mrs. Maisel

Melhor ator série de comédia: Michael Douglas como Sandy Kominsky em The Kominsky Method

Melhor atriz série de comédia: Rachel Brosnahan como Mrs maisel em The Marvelous Mrs. Maisel

Melhor série de drama: The Handmaid’s Tale

Melhor ator série de drama: Billy Porter como Pray Tell em Pose

Melhor atriz série de drama: Olivia Colman como Queen Elizabeth II em The Crown

Melhor animação: Rick And Morty

Lançamos a braba! Agora é só pegar a pipoca e esperar o dia 20 de setembro chegar para validarmos as nossas previsões!

O que precisamos melhorar?

Para o ano que vem temos dois pontos chaves para aprimorar o projeto:

Enriquecer o dataset com mais informações, por exemplo com as notas das séries de alguns portais como Imdb e Metacritic
Validar o melhor algoritmo de inteligência artificial e trabalhar com hiperparâmetros para focarmos em apenas um modelo

Ficou curioso pra ver o código? Só acessar o meu github no link abaixo, é tudo open source 😄 não esquece de deixar uma estrelinha ⭐️ lá e alguns aplausos por aqui 👏

CaiqueCoelho/predict-emmy

Contribute to CaiqueCoelho/predict-emmy development by creating an account on GitHub.

github.com