Detector de Atendimentos Ruins

Rotina automatizada que aplica diariamente uma biblioteca de 11 padrões de comportamento problemático sobre as conversas AgenticResponse de todos os projetos ClaudIA ativos, gera uma amostra estatisticamente significativa dos atendimentos suspeitos e disponibiliza no GitHub para revisão humana.

Para que serve

Muitos atendimentos ruins acontecem sem o cliente perceber — a IA inventa dados, vaza prompt, executa ação errada, mas a conversa parece tranquila.

Esta rotina foi calibrada para pegar exatamente esse tipo de problema silencioso, complementando os detectores que já existem.

Como funciona

Todo dia útil às 09h BRT (12h UTC), o GitHub Actions:

Descobre projetos ativos: roda no Metabase para identificar todos os projetos com ≥5 conversas AgenticResponse nas últimas 24h
Aplica a biblioteca de padrões: nas últimas 12h de cada projeto, roda regex e heurísticas para identificar conversas problemáticas
Calcula amostra por projeto: usa fórmula estatística com correção para população finita (80% confiança, 8% margem)
Sorteia aleatoriamente os flaggeados (com seed fixa para reprodutibilidade)
Commita o JSON em agentic-view/data/YYYY-MM-DD.json

Biblioteca de 11 padrões

#	Categoria	O que detecta
1	Vazamento de prompt/persona/raciocínio	Gírias da persona, placeholders `[RAZAO_X]`, markdown vazando, meta-instruções
2	Alucinação / dados inventados	CNPJ placeholder (`12.345.678/0001-95`), IDs falsos
3	Inconsistência / contradição interna	"reativado com sucesso" + "ainda vencido" na mesma conversa
4	Execução incorreta de regra de negócio	Oferta proibida, R$ 0,00 sendo processado, bônus já usado
5	Fluxo conversacional quebrado	Escalação prematura (≤3 prompts), loops de busca, excesso de prompts sem resolução
6	Problemas de UX / formatação	"R$ R$" duplicado, menu de 1 opção
7	Admissão explícita de falha	"não consegui localizar", "sistema retorna erro"
8	Oferta de ação não-autorizada	"lançamento manual", "vou te enviar por e-mail", "vou te ligar"
9	Cross-contamination entre clientes/turnos	Nome/telefone muda inexplicavelmente (monitoramento manual)
10	Resposta sem uso de base de conhecimento (hub bypass)	`response_usedsection_id IS NULL` em prompts factuais
11	Reset / perda de contexto mid-flow	IA se re-apresenta no meio da conversa, mudança de persona, mix de engines

Configuração

Parâmetro	Valor
Frequência	Seg–sex às 09h BRT
Critério de projeto ativo	≥5 conversas Agentic nas últimas 24h
Janela de análise	Últimas 12h
Filtro `response_class`	`AgenticResponse` (categorias 1–10); todas as classes para categoria 11
Tamanho da amostra	80% confiança / 8% margem (~64 max por projeto)
Seed aleatório	42 (fixo)

Como acessar os dados

Repositório

claudia-cloudhumans/agentic-view — toda execução fica versionada em data/YYYY-MM-DD.json.

Formato do JSON

{
  "run_date": "2026-04-24",
  "config": { "window_hours": 12, "confidence": 0.80, "margin_of_error": 0.08 },
  "totals": { "active_projects": 11, "total_flaggeados": 263, "total_amostra": 177 },
  "projects": [
    {
      "projectname": "cayena",
      "conversas_agentic_24h": 282,
      "flaggeados": 69,
      "amostra_n": 34,
      "amostra": [
        { "cloudchatid": "04221f71-...", "categorias": "5_quick_escalate" }
      ]
    }
  ]
}

Como abrir uma conversa flaggeada

O cloudchatid é o ID interno da Cloud Humans. Para abrir no CloudChat ou Unthread:

Pegue o cloudchatid no JSON
Cruze no Metabase (public.conversation) para obter o helpdeskid
Abra no helpdesk do cliente (CloudChat / Zendesk / etc.)

Como invocar manualmente via Claude

A skill bad-interaction-detector está disponível no Claude e responde a:

"rodar o detector de atendimentos ruins"
"amostra de bad interactions"
"gerar amostra para revisão de IA"
"quais projetos estão com problemas de comportamento"

Útil quando você quer rodar fora do horário automatizado ou para um projeto específico.

Como interpretar os resultados

Por categoria

Categorias 1, 2, 3, 4, 6, 8, 11: alta confiança — quando bate, quase sempre é problema real
Categoria 5 (fluxo quebrado): heurística estrutural — pode ter falso positivo (cliente pediu humano direto, por exemplo)
Categoria 7 (admissão de falha): alta confiança, mas pode ser caso legítimo onde a IA não tinha acesso ao dado
Categoria 10 (hub bypass): alta confiança quando o tema é factual (políticas, prazos)

Cruzando com outros sinais

Um ticket flaggeado + com frustration=CALM + com CSAT≥4 é o caso mais valioso: bug de comportamento que passa despercebido pelos detectores existentes.

Limitações conhecidas

Categoria 9 (cross-contamination) não é detectável via SQL regex — está documentada mas roda como monitoramento manual
Falhas de tool-calling (tag não atribuída, custom field não preenchido) não são detectadas — exigem cruzamento com o helpdesk
A amostra é aleatória, não priorizada por gravidade. Se quiser revisar os mais graves primeiro, ordene por número de categorias hit
Heurísticas estruturais (5_quick_escalate, 5_excess_no_resolve) podem ter falso positivo em projetos onde clientes pedem humano direto com frequência

Histórico

A biblioteca foi consolidada empiricamente em abril/2026, partindo da análise de tickets reportados como ruins no crmbonusgiftback, com extensões iterativas a partir de validação nos projetos reise (que revelou o padrão hub bypass) e cayena (que revelou o padrão reset de contexto).

Detector de Atendimentos Ruins: rotina diária de monitoramento da Agentica.