Entenda o que é Análise de Sobrevivência e como utilizar essa técnica em projetos de Data Science

Nina Maria Pinheiro
Data Hackers
Published in
9 min readMar 20, 2022

--

O que é Análise de Sobrevivência

A análise de sobrevivência é utilizada quando o tempo for o objeto de interesse, seja este interpretado como o tempo até a ocorrência de um evento ou o risco de ocorrência de um evento por unidade de tempo. Podendo ser o tempo até a morte do paciente, a cura do paciente, incidência de uma doença, o defeito de um equipamento, o tempo até o divórcio, o tempo de resposta a um tratamento, o tempo de recaída de um dependente químico em tratamento, etc.

Objetivo

O objetivo da análise de sobrevivência é estudar o tempo desde um instante inicial até a ocorrência de um evento. Além disso, estimar ou interpretar a função de sobrevivência e avaliar a relação entre variáveis com o tempo de sobrevida(FIGURA 1).

Surgimento da Análise de Sobrevivência

O termo análise de sobrevivência surgiu a partir de pesquisas biomédicas, uma vez que o método teve origem no interesse de pesquisadores no estudo da mortalidade, levando em conta o tempo transcorrido entre o diagnóstico de uma dada doença e a morte do paciente, por isso o nome é sobrevivência.

Entretanto, condições similares ocorrem em outras áreas em que se usam as mesmas técnicas de análise de dados, podendo ser aplicado em diversas áreas do conhecimento como saúde, financeiro, indústrias e outras. Essa técnica pode responder perguntas tais como:

“Quais fatores influenciam no tempo de recuperação de um paciente?”, “Qual o tempo médio de permanência de seus clientes ativos?”, “O que influencia no tempo até ocorrer churn de um usuário”, “Quais fatores aumentam o risco de um paciente com HIV vir a óbito”.

Aplicações

Farmacêutica: Por exemplo, entender o efeito de um determinado anticancerígeno, ou seja, qual seria o tempo de sobrevida.

Obstetrícia: Pode-se tentar verificar quais os fatores associados ao tempo de duração da amamentação.

Engenharia: Analisar o comportamento do tempo de duração dos equipamentos. Um bom exemplo, seria o tempo de vida de um celular.

Economia: Verificar qual seria o tempo de duração do desemprego.

Ciências Sociais: Analisar a duração de criminalidade de uma determinada região.

Empresarial: Pode-se criar indicadores que são capazes de explicar a situação de inadimplência de empresas.

Assim, a gente percebe que embora o termo análise de sobrevivência surgiu a partir de pesquisas biomédicas, podemos observar que existem vários exemplos que ilustram essa técnica.

Características dos dados de Análise de Sobrevivência

Tempo de falha: É a ocorrência de um determinado evento.

Engloba três elementos: o tempo inicial, a escala de medida e o evento de interesse.

Tempo de início: é a origem do estudo ele deve ser precisamente definido. Pode ser estabelecido, por exemplo, como data da primeira consulta, do início do tratamento, da primeira utilização de um determinado equipamento, da fabricação de um alimento, a data do início do tratamento de alguma doença, entre outros.

A escala de medida é geralmente representada pelo tempo real, por exemplo, dias, meses e anos.

Dessa forma, o tempo de falha se refere ao evento que marca o término do tempo de observação, ou seja, o tempo até a ocorrência de um determinado evento. Observa-se que na Figura 2 pode verificar que no eixo y apresenta os pacientes e no eixo x são os meses, o tempo. Por exemplo, para o paciente 1 o tempo de falha é de aproximadamente 25 meses. Em alguns casos a definição de falha já é a morte, mas também pode ser outra situações como o tempo de vida de um determinado produto.

Fonte: Colosimo, 2006

Censura: É qualquer observação cujo evento de interesse não foi observado. Isso pode ocorrer porque o pesquisador perde o contato com o paciente, sendo a morte como evento de interesse, pode ocorrer que o paciente morreu de causa diferente da doença ou porque a pessoa se recuperou, isso seria uma censura.

Mesmo censurados, todos os resultados de um estudo de sobrevivência, devem ser usados na análise. Ainda que incompletos, as observações censuradas fornecem informações sobre o tempo de vida de pacientes. Omissão das censuras pode acarretar conclusões viciadas.

Dessa forma, uma das vantagens da análise de sobrevivência é poder incorporar à modelagem de dados censurados. Em contrapartida, na estatística clássica, desconsidera esses dados. Portanto, tendo uma análise menos enviesada dos dados, ou seja, mais completa já que os dados não são omitidos.

Pode-se observar alguns exemplos de dados não censurados e censurados na imagem abaixo(FIGURA 3).

Fonte: Colosimo, 2006

Na primeira situação, A, o indivíduo entra no início do estudo e experiência no evento, ou a morte, no ano 6, o que significa que este indivíduo apresenta um tempo de vida de 6 anos.

No caso do indivíduo B, entra no início do estudo e continua vivo no término do mesmo, conferindo-lhe um tempo de vida de, pelo menos, 12 anos, isto é, tem um tempo censurado de 12 anos.

Devido ao término do estudo, o indivíduo D, não experiência o evento ou a morte, conferindo-lhe um tempo de vida de pelo menos 6 anos.

Funções

Existem algumas funções básicas de análise de sobrevivência que possibilita responder algumas questões dessas aplicações que foram ditas anteriormente

Função densidade de Probabilidade

Função densidade de probabilidade: No contexto da análise de sobrevivência a função de densidade de probabilidade f(t), pode ser interpretada como a probabilidade de um indivíduo sofrer um evento em um intervalo de tempo muito pequeno. Pode ser representada por essa função (FIGURA 4).

  • f(t): É a função de densidade de probabilidade;
  • T: É o tempo de sobrevivência (até a ocorrência de um evento);
  • e = incremento de tempo infinitamente pequeno;

Função de Sobrevivência

Função de Sobrevivência: Mede a probabilidade de um indivíduo sobreviver por mais do que um determinado tempo , segundo o evento de interesse. Por exemplo, se fosse representado o evento de interesse ‘morte’ de uma determinada doença, seria a probabilidade de sobreviver aquela doença. Se fosse, por exemplo, tempo de vida de um equipamento, seria a probabilidade do equipamento não quebrar. Em termos probabilísticos, isto é escrito como a equação representada na imagem abaixo(FIGURA 5).

Algumas características que podemos ver sobre a função de sobrevivência é que ela é uma função decrescente.

Além disso, no tempo t=0 e s(t)= 1(FIGURA 6) no começo do estudo como não ocorreu um evento ainda, a probabilidade de sobreviver é 100%. Percebemos também que a medida que o estudo cresce diminui a probabilidade de alguém sobreviver, deste modo a curva de sobrevivência deve cair para zero.

Nesse gráfico podemos perceber que o tempo de vida dos pacientes do grupo 1 é superior ao dos pacientes do grupo 2(FIGURA 6). Além disso, para os pacientes do grupo 1 o tempo para o qual cerca de 50%, ou seja o tempo mediano, estarão mortos será de 20 anos. Enquanto para os pacientes do grupo 2, o tempo mediano é menor 10 anos, conforme o gráfico abaixo.

Fonte: Colosimo, 2006

Função de Risco

Uma outra função importante é a função de risco. Sabe -se que risco é a proporção de indivíduos desenvolver um evento de interesse ao longo de um período. Logo a função de risco, ela é definida como a probabilidade de um indivíduo sofrer o evento em um intervalo de tempo, dado que ele sobreviveu até o tempo t, ou seja, é uma probabilidade de falhar durante um intervalo de tempo muito pequeno(FIGURA 7).

Dessa forma, a função de risco permite analisar o risco de um indivíduo sofrer um evento em um determinado tempo. Essa função pode ser constante, crescente e decrescente, conforme a figura ilustrada abaixo(FIGURA 8).

Fonte: Colosimo, 2006

Sabe-se, ainda, que a taxa de falha para o tempo de vida de seres humanos é ilustrada por uma combinação desses gráficos em diferentes períodos

de tempo. Ela é conhecida como “curva da banheira” e tem uma taxa de falha decrescente no período inicial, representando a mortalidade infantil, constante na faixa intermediária e crescente na porção final, uma vez que as pessoas estão envelhecendo.

Estimador Kaplan Meier

Uma técnica que utiliza para estimar a função de sobrevivência é o estimador de kaplan Meier. Esse estimador é uma técnica estatística que possibilita estimar essa curva de sobrevivência(FIGURA 9).

Fonte: OPEN DATA, 2021

Além de estimar a função de sobrevivência, o estimador de Kaplan-Meier possibilita comparar os tempos de falha segundo variáveis qualitativas. Pode-se comparar o comportamento do tempo até a cura do paciente de acordo com outras variáveis de interesse, como sexo, idade, obesidade, tabagismo, etc.

Por exemplo, pode-se estimar o Estimador de Kaplan-Meier separadamente para homens e mulheres e comparar as curvas de sobrevivência (FIGURA10).

Fonte: OPEN DATA, 2021

Aplicação em Saúde

Um trabalho realizado em 2020 pela Universidade Federal do Rio Grande do Norte, cujo objetivo foi realizar uma análise de sobrevivência de indivíduos diagnosticados com covid19. Nesta análise, foram identificados pelo sistema de saúde, utilizando fatores associados ao maior risco de ocorrência de óbitos.

Na análise foi utilizado como variável dependente o tempo até a ocorrência de óbito. As variáveis independentes foram sexo, for de pele, faixa etária, residir ou não na capital e na presença de comorbidades.

A conclusão do estudo foi que o maior risco de ocorrência de óbitos por covid -19 foi observado em indivíduos idosos, sobretudo com idade acima de 80 anos, pacientes com comorbidades, homens (TABELA 1).

Fonte:https://docs.ufpr.br/~jlpadilha/CE077/Aulas/2.TecnicasNaoParametricas.pdf

Códigos:

Base de dados

Probabilidade de sobrevivência para toda a linha do tempo

Gráfico do Estimador Kaplan Meier

Tempo médio de sobrevivência

Divisão dos dados

Previsão de sobrevivência para o mês de outubro para os sexos feminino e masculino

Gráfico de sobrevivência para os sexos

Teste de log-rank

Link dos códigos:

https://github.com/Nina-pinheiro/Data-Science-Python/tree/master/files/analise-sobrevivencia

Referências

https://docs.ufpr.br/~jlpadilha/CE077/Aulas/2.TecnicasNaoParametricas.pdf

https://www.ime.usp.br/~lane/home/MCM5916/surv.pdf

https://www.ime.usp.br/~acarlos/lib/exe/fetch.php?media=mae514_handout_cox_estimacao_testes.pdf

https://operdata.com.br/blog/o-que-e-analise-de-sobrevivencia/

https://ichi.pro/pt/analise-de-sobrevivencia-intuicao-e-implementacao-em-python-88303962410894

https://pesquisa.bvsalud.org/controlecancer/resource/pt/biblio-1156015?src=similardocs

https://docs.ufpr.br/~jlpadilha/CE077/Aulas/2.TecnicasNaoParametricas.pdf

https://medium.com/loftbr/xgbse-an%C3%A1lise-de-sobreviv%C3%AAncia-robusta-e-eficiente-em-python-b3064da6a1e8

Colosimo, Enrico Antonio, and Suely Ruiz Giolo. Análise de sobrevivência aplicada. Editora Blucher, 2006.

Agradecimentos — Muito obrigada pela gentileza por revisarem e pelas sugestões. Muito aprendizado com vocês !

Revisores:

Linkedin:

Juliana Saldanha: https://www.linkedin.com/in/juliana-saldanha-1845411a0/

João Pedro Hannauer: https://www.linkedin.com/in/jo%C3%A3o-pedro-hannauer/

Poesia

Contatos:

Linkedin: https://www.linkedin.com/in/ninapinheiro/

GITHUB: github.com/Nina-pinheiro

--

--

Nina Maria Pinheiro
Data Hackers

Nature, artificial intelligence, productivity and meditation. The unsustainable lightness of being=) Linkedin: https://www.linkedin.com/in/nina-i-maria-pinheiro