Principal Conhecendo o Eddie Detector de Atendimentos Ruins: rotina diária de monitoramento da Agentica.

Detector de Atendimentos Ruins: rotina diária de monitoramento da Agentica.

Última atualização em Apr 24, 2026

Detector de Atendimentos Ruins

Rotina automatizada que aplica diariamente uma biblioteca de 11 padrões de comportamento problemático sobre as conversas AgenticResponse de todos os projetos ClaudIA ativos, gera uma amostra estatisticamente significativa dos atendimentos suspeitos e disponibiliza no GitHub para revisão humana.


Para que serve

Muitos atendimentos ruins acontecem sem o cliente perceber — a IA inventa dados, vaza prompt, executa ação errada, mas a conversa parece tranquila.

Esta rotina foi calibrada para pegar exatamente esse tipo de problema silencioso, complementando os detectores que já existem.


Como funciona

Todo dia útil às 09h BRT (12h UTC), o GitHub Actions:

  1. Descobre projetos ativos: roda no Metabase para identificar todos os projetos com ≥5 conversas AgenticResponse nas últimas 24h
  2. Aplica a biblioteca de padrões: nas últimas 12h de cada projeto, roda regex e heurísticas para identificar conversas problemáticas
  3. Calcula amostra por projeto: usa fórmula estatística com correção para população finita (80% confiança, 8% margem)
  4. Sorteia aleatoriamente os flaggeados (com seed fixa para reprodutibilidade)
  5. Commita o JSON em agentic-view/data/YYYY-MM-DD.json

Biblioteca de 11 padrões

# Categoria O que detecta
1 Vazamento de prompt/persona/raciocínio Gírias da persona, placeholders [RAZAO_X], markdown vazando, meta-instruções
2 Alucinação / dados inventados CNPJ placeholder (12.345.678/0001-95), IDs falsos
3 Inconsistência / contradição interna "reativado com sucesso" + "ainda vencido" na mesma conversa
4 Execução incorreta de regra de negócio Oferta proibida, R$ 0,00 sendo processado, bônus já usado
5 Fluxo conversacional quebrado Escalação prematura (≤3 prompts), loops de busca, excesso de prompts sem resolução
6 Problemas de UX / formatação "R$ R$" duplicado, menu de 1 opção
7 Admissão explícita de falha "não consegui localizar", "sistema retorna erro"
8 Oferta de ação não-autorizada "lançamento manual", "vou te enviar por e-mail", "vou te ligar"
9 Cross-contamination entre clientes/turnos Nome/telefone muda inexplicavelmente (monitoramento manual)
10 Resposta sem uso de base de conhecimento (hub bypass) response_usedsection_id IS NULL em prompts factuais
11 Reset / perda de contexto mid-flow IA se re-apresenta no meio da conversa, mudança de persona, mix de engines

Configuração

Parâmetro Valor
Frequência Seg–sex às 09h BRT
Critério de projeto ativo ≥5 conversas Agentic nas últimas 24h
Janela de análise Últimas 12h
Filtro response_class AgenticResponse (categorias 1–10); todas as classes para categoria 11
Tamanho da amostra 80% confiança / 8% margem (~64 max por projeto)
Seed aleatório 42 (fixo)

Como acessar os dados

Repositório

claudia-cloudhumans/agentic-view — toda execução fica versionada em data/YYYY-MM-DD.json.

Formato do JSON

{
  "run_date": "2026-04-24",
  "config": { "window_hours": 12, "confidence": 0.80, "margin_of_error": 0.08 },
  "totals": { "active_projects": 11, "total_flaggeados": 263, "total_amostra": 177 },
  "projects": [
    {
      "projectname": "cayena",
      "conversas_agentic_24h": 282,
      "flaggeados": 69,
      "amostra_n": 34,
      "amostra": [
        { "cloudchatid": "04221f71-...", "categorias": "5_quick_escalate" }
      ]
    }
  ]
}

Como abrir uma conversa flaggeada

O cloudchatid é o ID interno da Cloud Humans. Para abrir no CloudChat ou Unthread:

  1. Pegue o cloudchatid no JSON
  2. Cruze no Metabase (public.conversation) para obter o helpdeskid
  3. Abra no helpdesk do cliente (CloudChat / Zendesk / etc.)

Como invocar manualmente via Claude

A skill bad-interaction-detector está disponível no Claude e responde a:

  • "rodar o detector de atendimentos ruins"
  • "amostra de bad interactions"
  • "gerar amostra para revisão de IA"
  • "quais projetos estão com problemas de comportamento"

Útil quando você quer rodar fora do horário automatizado ou para um projeto específico.


Como interpretar os resultados

Por categoria

  • Categorias 1, 2, 3, 4, 6, 8, 11: alta confiança — quando bate, quase sempre é problema real
  • Categoria 5 (fluxo quebrado): heurística estrutural — pode ter falso positivo (cliente pediu humano direto, por exemplo)
  • Categoria 7 (admissão de falha): alta confiança, mas pode ser caso legítimo onde a IA não tinha acesso ao dado
  • Categoria 10 (hub bypass): alta confiança quando o tema é factual (políticas, prazos)

Cruzando com outros sinais

Um ticket flaggeado + com frustration=CALM + com CSAT≥4 é o caso mais valioso: bug de comportamento que passa despercebido pelos detectores existentes.


Limitações conhecidas

  • Categoria 9 (cross-contamination) não é detectável via SQL regex — está documentada mas roda como monitoramento manual
  • Falhas de tool-calling (tag não atribuída, custom field não preenchido) não são detectadas — exigem cruzamento com o helpdesk
  • A amostra é aleatória, não priorizada por gravidade. Se quiser revisar os mais graves primeiro, ordene por número de categorias hit
  • Heurísticas estruturais (5_quick_escalate, 5_excess_no_resolve) podem ter falso positivo em projetos onde clientes pedem humano direto com frequência

Histórico

A biblioteca foi consolidada empiricamente em abril/2026, partindo da análise de tickets reportados como ruins no crmbonusgiftback, com extensões iterativas a partir de validação nos projetos reise (que revelou o padrão hub bypass) e cayena (que revelou o padrão reset de contexto).