Autor - Miguel Ángel Rodrigo Technical Product Manager

O forecast financeiro no setor farmacêutico

O forecasting de vendas fiável tem um grande impacto positivo em diferentes áreas da empresa, mas deve ser feito corretamente e utilizada da forma correta.

Isto permite que as equipas de vendas tenham uma referência para medir os seus objetivos de vendas, o que naturalmente se repercute no desempenho. Por outro lado, a existência de previsões permite reflexões retrospetivas informadas, em que os dados permitem analisar se as previsões foram excessivamente otimistas ou se é necessário fazer correções quanto à forma de trabalhar para o ano seguinte.

Uma previsão anual, ou mesmo trimestral, permite um equilíbrio entre a estrutura da dívida a curto e a longo prazo

No caso da logística, não é muito útil ter previsões de vendas anuais. Em geral, as vendas não se alteram de forma drástica e inesperada a curto prazo. Além disso, uma previsão financeira a longo prazo (trimestres ou anos inteiros) não será suficientemente exata para ser utilizada como principal fonte de informação para a produção ou a logística. No entanto, é possível fazer previsões a mais curto prazo que possam ter em conta variações a curto prazo devidas a efeitos transitórios, tais como ofertas comerciais próprias ou de terceiros ou a falta de stock de um concorrente. Este tipo de forecast não dá prioridade à exatidão deste tipo de vendas, que são difíceis de prever devido à sua própria natureza, mas sim à agilidade de dispor de esta informação de forma automatizada, sem necessidade de uma equipa de alerta 24/7.

Por último, o mais importante de todos os impactos de um bom forecast é talvez o menos visível do exterior: a verticalidade financeira da empresa. Um forecast anual ou mesmo trimestral permite uma estrutura de dívida de curto e longo prazo equilibrada, baseada em fluxos de caixa previsíveis.

Por que razão não é fácil realizar estas previsões no setor farmacêutico?

No setor farmacêutico há uma série de desafios adicionais a uma boa previsão de vendas que não são desconhecidos da Izertis. Cada um destes desafios é suficientemente complexo para ser um caso isolado. A título de exemplo:

  • Qual será o impacto de um novo lançamento?
    • Os números da prevalência e da incidência de uma doença são conhecidos, mas continuam a ser estimativas com uma precisão variável consoante a doença.
    • A melhoria diferencial deste novo lançamento em relação aos medicamentos existentes é uma variável crucial e muito difícil de medir.
    • O investimento comercial tem um impacto importante que varia em função da área terapêutica, dos concorrentes, etc. Por conseguinte, não é fácil saber qual será o efeito das despesas nas diferentes rubricas comerciais de um medicamento que ainda não é comercializado.
  • Que impacto terá a aprovação de uma nova indicação para um medicamento existente?
  • Qual será o aspeto da curva de degradação das receitas de um medicamento cuja patente expira?
  • Qual o impacto das despesas com cada artigo comercial nas vendas?
    • É certo que algumas acções estão a ser objeto de um investimento excessivo e de um investimento insuficiente noutras. Se nos pudermos dar ao luxo de efetuar testes controlados de certos medicamentos em certas regiões, o impacto isolado dessa mudança pode ser estimado utilizando técnicas de análise de impacto causal.
  • Como podemos prever as vendas num mercado regulado por concursos (como os Países Baixos, os Emirados Árabes Unidos, a maioria dos países africanos, etc.)?

Para cada um destes casos de utilização, existem diferentes soluções: encontrar lançamentos semelhantes e regredir no nível de semelhança, ponderando-o depois pelas variáveis de mercado, experimentar pequenas alterações no investimento comercial em pequenas regiões, utilizar a análise de impacto causal para determinar quais as variáveis que causaram a alteração, etc. Cada caso de utilização deve ser tratado de forma diferente, dependendo do mercado para cada medicamento, dos objetivos e da informação disponível dentro e fora da empresa.

As vendas de determinados produtos estão correlacionadas, como é que poderia incorporar esta informação nos modelos?

Os modelos de previsão no setor farmacêutico têm um desafio recorrente, que consiste em utilizar as informações de vendas do resto da carteira para alimentar os modelos de previsão de um produto específico.

Utilizando estas incorporações, podemos gerar um único modelo que prevê as vendas de várias marcas

Uma solução trivial, mas incorreta, seria codificar cada produto mediante one-hot. A forma correta é utilizar embeddings, em que cada marca é representada por um vetor numérico aprendido automaticamente, de modo a que marcas semelhantes correspondam a vetores próximos e marcas diferentes correspondam a vetores mais distantes. Esta representação por embeddings permite comprimir a informação das marcas, introduzindo-a no modelo de uma forma muito mais eficiente, bem como eliminar informação arbitrária que apenas contribui com ruído (como a ordem das marcas). Este mapeamento de cada etiqueta para um vetor numérico pode ser gerado durante o treino do próprio modelo ou, idealmente, pode ser pré-treinado de forma semi-supervisionada utilizando informação adicional. Esta informação adicional nem sequer tem de ser apenas para os próprios produtos, podendo também ser utilizada informação de produtos concorrentes.

Uma forma muito adequada de o fazer no caso dos produtos farmacêuticos seria utilizar as indicações que cada medicamento tem. Desta forma, é possível criar embeddings que, dado um produto, devolvem um vetor que está próximo no espaço vetorial de outros produtos que têm indicações semelhantes, sem necessidade de utilizar qualquer informação de vendas.

Utilizando estes embeddings, podemos gerar um único modelo que prevê as vendas de várias marcas com base na marca selecionada. Este modelo terá sido treinado com informações muito mais ricas do que se for treinado exclusivamente com base nas suas próprias vendas.

Porque é que não se pode utilizar uma solução pre-packaged?

Em cada caso, estão disponíveis dados diferentes e é necessário encontrar uma solução diferente. A principal condição para o sucesso neste tipo de projeto é tirar o máximo partido de todos os dados disponíveis. Isto inclui a incorporação de dados abstractos e não estruturados nos modelos que não são trivialmente traduzíveis em linguagem matemática.

Um erro comum é assumir que um LSTM funcionará sempre melhor

Para responder a estes grandes desafios de previsão a partir da definição de um modelo de inteligência artificial, propomos duas vias:

  • Utilizando modelos de análise de séries temporais, como o ARIMA, que se aplica aos casos em que há poucos dados associados a séries altamente estacionárias. Funciona bem quando é necessária uma previsão num horizonte temporal curto (por exemplo, semanas).
  • Modelos de regressão clássicos, que criam características adicionais que são dados temporais anteriores da caraterística a ser prevista (conhecidos como lags).
  • Existe uma solução híbrida: as redes neuronais recorrentes (RNN), como um LSTM. Conceptualmente, são o mesmo que o modelo anterior, só que os lags são gerados e ponderados automaticamente durante o treino.

Um erro comum é assumir que um LSTM terá sempre um melhor desempenho, porque é o mais avançado e moderno dos três modelos sugeridos. Na prática, porém, há muitas vezes restrições de disponibilidade de dados que fazem com que este não seja o caso.

É possível criar um modelo único que preveja o momento seguinte

Finalmente, como mostra o prémio de melhor artigo da AAAI 2021, também é possível utilizar transformers para prever séries temporais.

Uma vez decidida a forma de modelação, é possível criar um único modelo que preveja o ponto temporal seguinte e, em seguida, utilizar esta nova previsão como se se tratasse de dados reais e, assim, prever o ponto seguinte. Esta técnica (rolling forecasting) produz os modelos mais fáceis de criar e manter (o que não é tarefa fácil), mas não as melhores previsões.

Outra forma é criar um modelo único para cada horizonte temporal desejado. Por exemplo, criar 6 modelos, cada um treinado para prever o horizonte temporal específico: um para o próximo mês, outro para o valor daqui a dois meses etc. Esta técnica oferece melhores resultados à custa de uma arquitetura lógica mais complexa e difícil de manter.

Como posso estimar o impacto de um evento?

¿Qué impacto tienen las aprobaciones de nuevas indicaciones en un medicamento? ¿Cómo puede afectar a las ventas el lanzamiento de un competidor?

Qual é o impacto da aprovação de novas indicações para um medicamento? Como é que o lançamento de um concorrente pode afetar as vendas?

A diferença entre a previsão e a realidade ajudar-nos-á a conhecer os dados do impacto causal

Para responder a estas questões, pode recorrer-se a um ramo da matemática aplicada que tenta analisar em que medida o impacto da alteração de uma variável se deve a um determinado acontecimento. É a chamada análise de impacto causal.

Se pudéssemos recuar no tempo e ver quanto da alteração nas vendas se deve ao novo evento, seria possível treinar um modelo de uma forma relativamente simples. Mas o desafio é que não temos essa informação porque não sabemos quanto se deve a esse evento e quanto se deve a outras variáveis. Para resolver isso, podemos implantar um modelo para fazer uma previsão com base na ocorrência do evento. A diferença entre a previsão e a realidade ajudar-nos-á a conhecer os dados do impacto causal. Obviamente, estes dados são enviesados porque há outras variáveis não controladas envolvidas na mudança, mas se observarmos um número suficientemente grande destes eventos, podemos compensar o impacto das diferentes variáveis e manter apenas a que afeta sempre, o impacto do evento que queremos estimar.