People Analytics de guerrilha: do Teorema de Bayes ao preditivo de turnover no Excel (Parte 1)

Ter um preditivo de turnover é encarado por muitas áreas de People Analytics como um objetivo em si — um rito de passagem do “descritivo” para o “preditivo”. No entanto, o real valor dessa ferramenta está na habilidade de gerar ação e resolver um problema de negócio. Se não está claro o motivo para o seu desenvolvimento e se não há um plano de uso dessas informações, o preditivo corre o risco de se tornar apenas uma métrica de vaidade, sem impacto real. Além disso, ao ter um preditivo, é necessário que as pessoas que irão consumir suas informações conheçam sua metodologia, para ajudar na interpretação dos resultados e no entendimento das limitações desse tipo de ferramenta.

Mas, se você entende os benefícios e quer usar essa ferramenta de forma estratégica (ou se apenas quer dominar uma técnica interessante para diversos problemas), este artigo é para você. Nele, vou contar como fazer um bom preditivo no Excel mesmo, que foi como eu fiz pela primeira vez. Para isso, vamos entrar no universo da Estatística Bayesiana.

Este artigo está dividido em duas partes:

Post 1 (este aqui): Falo sobre o princípio bayesiano, como ele permite atualizar nosso conhecimento e estimar a probabilidade de turnover voluntário a partir de diversas variáveis.
Post 2: Falo sobre como comparar o peso de diferentes variáveis, sobre o princípio da independência e dou um passo a passo de como fazer o preditivo em uma planilha.

O princípio bayesiano

Há muito tempo acompanho diversos canais de youtube de educação científica. E o meu preferido era, e talvez ainda seja, o Veritassium. Em 2017, quando estava no mestrado, apanhando nas disciplinas de econometria tradicionais, o canal publicou um vídeo chamado The Bayesian Trap (a armadilha bayesiana), em que explicou o princípio bayesiano. Essa abordagem me chamou muita atenção, por parecer contraintuitivo e ao mesmo tempo muito lógico. E aquilo ficou na minha cabeça guardado como “um dia vou estudar isso”. E a vida seguiu. Um tempo depois, em 2019, no início da minha jornada como praticante de People Analytics, o canal 3Blue1Brown publicou o vídeo Bayes theorem, the geometry of changing beliefs (Teorema de Bayes, a geometria da mudança de crença). Enquanto assistia, eu pensei: “Eu posso prever o turnover¹!”. Foi quando eu decidi de fato colocar em prática o princípio bayesiano.

Para entender seu funcionamento, imagine a seguinte situação. Você é uma liderança da empresa. Um talento do seu time verbaliza, em uma conversa, que está insatisfeito com sua remuneração. Você recebe do time de People Analytics a informação de que 95%² das pessoas que pediram demissão nos últimos seis meses também estavam insatisfeitas com a remuneração. Faltam seis meses para o próximo ciclo de mérito. O quão preocupado você ficaria? Será que ele pedirá demissão nos próximos seis meses? Qual seria a sua estimativa para a probabilidade de saída do talento?

Agora, considere também que a área de People Analytics, através de pesquisas internas, determinou que 50% dos funcionários estão insatisfeitos com a remuneração. Ou seja, a prevalência da insatisfação com remuneração é consideravelmente mais alta entre aqueles que pedem demissão. Essa informação muda algo na sua opinião?

O conceito fundamental que precisamos explorar para resolver essa questão é o de probabilidade condicional. A primeira informação que trouxe nos diz que a probabilidade de estar insatisfeito com o trabalho, sob a condição de ter saído da empresa voluntariamente, é de 95%. Matematicamente, podemos escrever isso como:

P(R|T) = 95\%,

onde $P$ significa probabilidade, $R$ representa a insatisfação com a remuneração, e $T$ representa o turnover voluntário. O sinal $|$ pode ser lido como “dado que”. Ou seja, a leitura dessa formulação, que representa uma probabilidade condicional, é “a probabilidade de insatisfação com a remuneração, dado que ocorreu turnover voluntário, é de 95%”. Outra probabilidade condicional descrita até o momento é a de estar insatisfeito dado que não pediu demissão:

P(R|\bar{T}) = 50\%,

onde $\bar{T}$ representa o grupo de pessoas que não pediram demissão. A leitura dessa formulação é “a probabilidade de insatisfação com a remuneração, dado que não ocorreu o turnover voluntário, é de 50%”. Podemos comparar essas duas probabilidades em um gráfico simples, como o abaixo. Ali, vemos que estar insatisfeito com a remuneração é mais prevalente em quem sai do que em quem fica. Então, isso nos dá uma noção de que essa insatisfação não é uma coisa boa.

Figura 1 – Incidência de insatisfação com remuneração entre quem pede demissão e quem não pede

Contudo, a probabilidade que estamos procurando não é a de estar insatisfeito dado que saiu, a $P(R|T)$ . A pergunta que precisamos responder é a probabilidade de pedir demissão dado que está insatisfeito com a remuneração, a $P(T|R)$ . Uma diz respeito à prevalência de insatisfação no grupo que saiu, a outra refere-se à probabilidade de pedir demissão dada a informação de que esta pessoa está insatisfeita com a remuneração. Para isso, precisaremos saber o tamanho total do grupo de pessoas insatisfeitas e calcular o turnover dentro desse grupo. Podemos chegar ao tamanho desse grupo a partir da a incidência de turnover voluntário na empresa.

Considere que, a cada seis meses, 10% dos funcionários peçam demissão. Dito de outra forma, $P(T) = 10\%$ . Disso, conclui-se que 90% dos funcionários não pedem demissão, ou seja, $P(\bar{T}) = 90\%$ . Vou fazer uma representação geométrica dessas proporções inspirada no vídeo do 3Blue1Brown. Nela, as áreas representam o tamanho dos grupos. Abaixo, podemos ver a comparação entre eles.

Figura 2 – Representação geométrica do tamanho dos grupos “pediu” e “não pediu” demissão.

Dentro do grupo que pede pra sair, vimos que 95% estão insatisfeitos com a remuneração. Ou seja, 9,5% de toda a amostra estão insatisfeitos e pediram demissão.

P(R|T) \cdot P(T) = 95\% \cdot 10\% = 9,5\%

Geometricamente, podemos representar a situação da seguinte maneira:

Figura 3 – Representação geométrica destacando o grupo que estava insatisfeito e pediu desligamento

Sabemos também que, a cada seis meses, 90% dos funcionários não pedem demissão ( $P(\bar{T}) = 90\%$ ). Metade desse grupo está insatisfeita com a remuneração, ou seja, 45% de toda a amostra está insatisfeita e não pediu demissão. Matematicamente:

P(R|\bar{T}) \cdot P(\bar{T}) = 50\% \cdot 90\%= 45\%

Graficamente, temos

Figura 4 – Representação geométrica destacando o grupo que estava insatisfeito e não pediu desligamento

Se compararmos a representação dos grupos de pessoas insatisfeitas com a remuneração da Figura 4 com a representação feita na Figura 1, é possível notar que existe uma diferença fundamental que normalmente não é considerada em comparativos de probabilidade: o tamanho dos grupos é bastante diferente. E esse é o grande diferencial da análise bayesiana.

Somando os grupos de insatisfeitos, sabemos agora que 54,5% é o tamanho do grupo que está insatisfeito com a remuneração ( $9,5\%+45\%$ ) , e 9,5% é o tamanho do grupo que está insatisfeito e pediu demissão. Agora, sim, conseguimos calcular a proporção de pessoas do grupo de insatisfeitos que pedem demissão:

P(T|R)=\frac{P(R|T) \cdot P(T) }{P(R|T) \cdot P(T) + P(R|\bar{T}) \cdot P(\bar{T})}

P(T|R) = \frac{9,5\%}{9,5\%+ 45\%} = 17,4\%

Podemos representar graficamente essa fração como

Figura 5 – Representação geométrica do Teorema de Bayes aplicado ao nosso problema de turnover voluntário

Graficamente, fica muito fácil perceber que o denominador representa todos os insatisfeitos com a remuneração, e o numerador, todos aqueles insatisfeitos que saíram, resultando na taxa de turnover voluntário dos insatisfeitos com a remuneração. Essa é a probabilidade de a pessoa pedir demissão, dado que está insatisfeita com a remuneração.

Então, ainda que 95% das pessoas que saíram estivessem insatisfeitas, na prática, o dado sobre a insatisfação nesse exemplo indica uma probabilidade de 17,4% de pedido de demissão para o talento. Certamente, há um avanço na probabilidade em relação às chances da população em geral pedir demissão, mas ainda assim está longe dos 95% que poderia parecer inicialmente.

Atualizando o conhecimento com novas informações

Nessa formulação para calcular a probabilidade de turnover, $P(T)$ pode ser considerada a probabilidade inicial, aquela que seria o melhor chute se não tivéssemos mais nenhuma nova informação. Isso é intuitivo se imaginarmos a pergunta: qual a probabilidade de qualquer pessoa da empresa pedir demissão? Sem nenhuma outra informação, a melhor estimativa é a taxa de turnover geral. Essa probabilidade é chamada de prior bayesiano, ou probabilidade a priori, que chamaremos aqui de $p$ . Ela representa o conhecimento anterior à chegada de uma informação nova.

No contexto organizacional, teremos múltiplas informações que poderemos utilizar em um preditivo de turnover. Considere, por exemplo, que o talento também tenha uma baixa satisfação com a liderança. E que, de todas as pessoas que pediram demissão, 80% também tinham uma baixa satisfação com liderança, $P(L|T) = 80 \%$ . Enquanto isso, naqueles que continuaram na empresa, 15% estavam insatisfeitos com a liderança, $P(L|\bar{T}) = 15 \%$ .

Podemos usar essa nova informação para atualizar nosso conhecimento sobre a probabilidade de saída do talento. Para isso, devemos considerar que o prior bayesiano $p$ , nesse caso, partirá do conhecimento já existente sobre a possibilidade de saída do talento, que já contempla a informação sobre a insatisfação com a remuneração. Assim, temos a probabilidade de pedido de demissão dadas a insatisfação com a liderança e a insatisfação com a remuneração.

P(T|L)=\frac{P(L|T) \cdot p }{P(L|T) \cdot p + P(L|\bar{p}) \cdot P(\bar{p})}

P(T|L)=\frac{80\%\cdot17,4\%}{80\%\cdot17,4\%+ 15\%\cdot82,6\%} = 53,0\%

O conhecimento atualizado sobre a probabilidade de saída desse talento é agora de 53%. Esse valor passa a ser o novo prior bayesiano $p$ , a partir do qual podemos atualizar novamente a informação com o recebimento de novas evidências.

No desenvolvimento do preditivo, é importante lembrar de colocar várias variáveis, incluindo as que reduzem a probabilidade de saída. Por exemplo, com os mesmos dados que vimos até agora, é possível calcular a redução na probabilidade de turnover dado que uma pessoa não está insatisfeita com a remuneração.

A prevalência da não insatisfação no grupo que sai $P(\bar{R}|T)$ é de 5% (já que 95% estão insatisfeitos). A $P(\bar{R}|\bar{T})$ , prevalência da não insatisfação no grupo que fica, é de 50% (pois os outros 50% estão insatisfeitos). Aplicando o princípio bayesiano, com o prior de 10%, temos que

P(T|\bar{R}) = \frac{5\% \cdot 10\%}{5\% \cdot 10\% + 50\% \cdot 90\%} = 1,1\%,

onde $\bar{R}$ representa a não insatisfação com a remuneração. Temos, assim, uma redução na probabilidade de saída ao considerarmos que a pessoa não está insatisfeita com sua remuneração.

O princípio bayesiano nos permite, então, uma atualização do conhecimento com base no que sabemos anteriormente, e na força da evidência nova que chega. Este princípio é utilizado em uma grande gama de problemas, desde a localização de aeronaves caídas, a partir da localização de destroços, até nos modelos de linguagem que tanto utilizamos hoje, fazendo a previsão da próxima palavra mais provável dadas as palavras escritas anteriormente. Esse é um princípio que podemos aplicar no nosso dia-a-dia, ajustando nossas crenças sobre determinados assuntos, a partir do que já sabemos sobre ele, e de novas informações, de acordo com sua qualidade. E essa pode ser a base para a criação de diversos preditivos, como a aplicação no Excel que veremos no próximo post.

Considere que sempre eu eu falar em turnover, saída ou demissão, estou sempre falando em turnover voluntário, ou seja, pedido de demissão por parte do funcionário. ↩︎
Esteja sempre atento ao tamanho amostral. Amostras pequenas geram informações ruins e podem destruir o modelo. ↩︎

People Analytics de guerrilha: do Teorema de Bayes ao preditivo de turnover no Excel (Parte 1)

O princípio bayesiano

Atualizando o conhecimento com novas informações

Zenir Mittmann

Deixe um comentário Cancelar resposta

Recent Posts

Recent Comments

Archives

Categories