SynapSpeech

Escutando sinais por meio da linguagem

Pipeline completo para triagem e acompanhamento de sinais cognitivos associados ao Alzheimer a partir de fala espontânea em português brasileiro. Foco em pesquisa aplicada, acessível e de baixo custo.

Triagem Resultados indicativos para apoio ao acompanhamento.

SynapSpeech

Visão geral

O SynapSpeech é um pipeline de pesquisa que aplica Processamento de Linguagem Natural e Aprendizado de Máquina para analisar narrativas espontâneas. A proposta é oferecer triagem e apoio ao acompanhamento de sinais linguísticos associados ao envelhecimento, ao Alzheimer e ao comprometimento cognitivo leve (MCI/TCL), sem substituir avaliação clínica.

  • Foco em tarefas narrativas e memória episódica.
  • Comparação entre grupos clínicos e controles.
  • Pipeline binário em duas fases para análise refinada.
Princípios

Pesquisa aplicada e ética

A IA é usada como tecnologia assistiva, apoiando a pesquisa e o acompanhamento longitudinal. Os resultados são indicativos e sempre devem ser discutidos com profissionais de saúde.

Autor: João Pedro Madureira Sales (TCC - UTFPR, 2025).

Dados

DNLT-BP e narrativas

As transcrições vêm do repositório DNLT-BP (NILC/USP), com consentimento informado (TCLE). As histórias mais usadas são Cinderella e Dog Story.

  • Cinderella: 60 amostras (20 Alzheimer, 20 MCI/TCL, 20 controles).
  • Dog Story: 106 amostras (12 Alzheimer, 10 MCI/TCL, 84 controles).

Características do corpus

As narrativas preservam marcas linguísticas naturais (pausas, repetições, reformulações), essenciais para análise linguística e comparação entre grupos.

Metodologia

Etapas principais

Processamento

  • Pré-processamento: limpeza, tokenização, stopwords, normalização e lematização.
  • Representações: BoW, TF-IDF, Word2Vec, FastText, GloVe, MiniLM e BERTimbau.
  • Redução de dimensionalidade: PCA, t-SNE e autoencoders.
  • Balanceamento: SMOTE, ADASYN, TomekLinks e estratégias combinadas.
  • Avaliação: acurácia, precisão, revocação e F1 macro.

Modelagem

O estudo testa comitês e modelos clássicos (LightGBM, CatBoost, XGBoost) e utiliza validação cruzada estratificada para lidar com o desbalanceamento de classes. O objetivo é comparar abordagens de forma transparente e reprodutível.

Pipeline

Da limpeza aos relatórios

Resultados

Resultados

Visão geral

Resultados Preliminares

Na avaliacao preliminar, a melhor configuração foi LightGBM com ADASYN e representações combinadas. Os números abaixo são indicativos e servem para acompanhar o desempenho do pipeline ao longo da pesquisa.

Sempre interpretar os resultados como triagem e apoio ao acompanhamento.

Destaque
85%

F1 macro

Acurácia de 86% em avaliacao preliminar.

Precisão e revocação variam por grupo clínico.

85%
F1 macro
86%
Acurácia
88%
Precisão (saudável)
82%
Precisão (não saudável)
90%
Revocação (saudável)
79%
Revocação (não saudável)

ConnectSynap

Extensão do SynapSpeech no Telegram

O ConnectSynap é a vertente aplicada do SynapSpeech. Ele reúne tarefas curtas de narrativa, memória e fluência verbal em um bot no Telegram, facilitando a triagem e o acompanhamento em diferentes contextos.

  • Fluxo guiado com consentimento informado.
  • Tarefas rápidas e acessíveis em dispositivo móvel.
  • Resultados indicativos, sem substituir avaliação clínica.

Conheça o ConnectSynap

Veja como o bot funciona, quais testes são aplicados e como acessar o FAQ dedicado.

FAQ

Perguntas sobre o SynapSpeech

No enfrentamento da Doença de Alzheimer, há um desafio silencioso: o da detecção precoce. Para muitas pessoas, especialmente em regiões com recursos limitados, esse passo inicial nem sempre acontece, seja por falta de acesso, de infraestrutura, ou mesmo de informação. É nesse cenário que o SynapSpeech propõe uma alternativa. Em vez de exames caros e restritivos, ele utiliza a fala espontânea como base para análise. Com o auxílio de técnicas de Processamento de Linguagem Natural (PLN) e Aprendizado de Máquina (AM), o sistema busca identificar padrões linguísticos que possam sinalizar alterações cognitivas associadas aos estágios iniciais da doença. Ou seja, a partir de um celular comum, uma gravação, pode-se iniciar um processo de triagem. A proposta não propõe a substituição do profissional especializado, e sim, uma potencialização na descoberta do diagnóstico antecipado.

Não. Os resultados são indicativos e sempre precisam de acompanhamento profissional.

Alzheimer, comprometimento cognitivo leve e controles, com pipeline binário em duas fases.

BoW, TF-IDF, Word2Vec, FastText, GloVe, MiniLM e BERTimbau.

  1. Base guarda-chuva: Casanova et al. (2020, LREC). “Evaluating Sentence Segmentation in Different Datasets of Neuropsychological Language Tests in Brazilian Portuguese”. ACL Anthology
  2. Narrativa (picture description / connected speech): Giles, Patterson e Hodges (1996). Perda de informação na descrição da “Cookie Theft” em Alzheimer. Taylor & Francis Online
  3. Narrativa (picture description / connected speech): Slegers, Filiou, Montembeault e Brambati (2018). Revisão sistemática sobre discurso em Alzheimer (AD) com “picture description”. PubMed
  4. Sequência de imagens (picture-sequence narrative): Casanova et al. (2020, LREC). Estímulos por sequência de cenas e livro ilustrado. ACL Anthology
  5. Sequência de imagens (picture-sequence narrative): Malcorra et al. (2022). “The Dog Story” como tarefa de sequência (BALE). Repositório PUCRS
  6. Sequência de imagens (picture-sequence narrative): Bateria de Avaliação da Linguagem no Envelhecimento (BALE). ResearchGate
  7. Sequência de imagens (picture-sequence narrative): Bose et al. (2022). Impacto do tipo de tarefa na fala conectada em demência. PMC
  8. Recordação verbal (lista de palavras / delayed recall): Zhao et al. (2012). “Short-Term Delayed Recall of Auditory Verbal Learning Test Is Equivalent to Long-Term Delayed Recall for Identifying Amnestic Mild Cognitive Impairment”. PLOS ONE
  9. Recordação verbal (lista de palavras / delayed recall): Xu et al. (2020). AVLT para predição de conversão em MCI. PubMed
  10. Recordação verbal (lista de palavras / delayed recall): Vyhnálek et al. (2022). Contribuição de testes de memória para identificação precoce. PMC
  11. Recordação verbal (lista de palavras / delayed recall): Takada et al. (2006). “Delayed recall” em demência em contexto comunitário (Brasil). SciELO
  12. Recordação verbal (lista de palavras / delayed recall): ABCD / “Wallet Story” (referências de uso clínico). ResearchGate
  13. Fluência verbal semântica (animais / 60s): Radanovic et al. (2009). Animais/frutas discriminando controles, MCI e Alzheimer. International Psychogeriatrics
  14. Fluência verbal semântica (animais / 60s): Tessaro et al. (2020). Fluência verbal em controles vs. MCI vs. AD (Brasil). SciELO
  15. Fluência verbal semântica (animais / 60s): Neves et al. (2020). Acurácia da fluência semântica para separar grupos (Brasil). SciELO
  16. Sentença ambígua (compreensão sintático-semântica): Kempler et al. (1998). Déficits de compreensão de sentenças em Alzheimer. PubMed
  17. Sentença ambígua (compreensão sintático-semântica): Grossman et al. (1998). Fatores gramaticais/semânticos na compreensão de sentenças em Alzheimer (AD). ScienceDirect
  18. Sentença ambígua (compreensão sintático-semântica): Grober et al. (1995). Correspondência sentença–figura em Alzheimer. Taylor & Francis Online
  19. Sentença ambígua (compreensão sintático-semântica): Liu et al. (2019). Piora da compreensão de sentenças em DAT/Alzheimer. PeerJ
  20. Sentença ambígua (compreensão sintático-semântica): van Boxtel e Hagoort (2021). Revisão sobre compreensão de sentenças no envelhecimento e em Alzheimer (AD). Compass