Como funciona o Detector de Atendimentos Ruins (rotina diária da Agêntica)
Quando usar
- Você quer entender o que é a rotina diária de monitoramento da Agêntica e como ela complementa os detectores
existentes
- Você precisa acessar a amostra do dia para revisar atendimentos suspeitos de um projeto
- Você quer rodar o detector manualmente (fora do horário automatizado) para um projeto especÃfico
Pré-requisitos
- Acesso ao repositório claudia-cloudhumans/agentic-view no GitHub
- Acesso ao Metabase para cruzar cloudchatid → helpdeskid
- (Opcional) Acesso ao Claude para invocar a skill bad-interaction-detector manualmente
Sobre este artigo
O Detector de Atendimentos Ruins é uma rotina automatizada que aplica diariamente uma biblioteca de 11 padrões de
comportamento problemático sobre as conversas AgenticResponse de todos os projetos ClaudIA ativos, gera uma amostra
estatisticamente significativa dos atendimentos suspeitos e disponibiliza no GitHub para revisão humana.
Para que serve
Muitos atendimentos ruins acontecem sem o cliente perceber — a IA inventa dados, vaza prompt, executa ação errada, mas a
conversa parece tranquila.
Esta rotina foi calibrada para pegar exatamente esse tipo de problema silencioso, complementando os detectores que já
existem.
Como funciona
Todo dia útil às 09h BRT (12h UTC), o GitHub Actions:
1. Descobre projetos ativos — roda no Metabase para identificar todos os projetos com ≥5 conversas AgenticResponse nas
últimas 24h
2. Aplica a biblioteca de padrões — nas últimas 12h de cada projeto, roda regex e heurÃsticas para identificar
conversas problemáticas
3. Calcula amostra por projeto — usa fórmula estatÃstica com correção para população finita (80% confiança, 8% margem)
4. Sorteia aleatoriamente os flaggeados (com seed fixa para reprodutibilidade)
5. Commita o JSON em agentic-view/data/YYYY-MM-DD.json
Biblioteca de 11 padrões
| # | Categoria | O que detecta | | --- | --- | --- | | 1 | Vazamento de prompt/persona/raciocÃnio | GÃrias da persona,
placeholders [RAZAO_X], markdown vazando, meta-instruções | | 2 | Alucinação / dados inventados | CNPJ placeholder
(12.345.678/0001-95), IDs falsos | | 3 | Inconsistência / contradição interna | "reativado com sucesso" + "ainda
vencido" na mesma conversa | | 4 | Execução incorreta de regra de negócio | Oferta proibida, R$ 0,00 sendo processado,
bônus já usado | | 5 | Fluxo conversacional quebrado | Escalação prematura (≤3 prompts), loops de busca, excesso de
prompts sem resolução | | 6 | Problemas de UX / formatação | "R$ R$" duplicado, menu de 1 opção | | 7 | Admissão
explÃcita de falha | "não consegui localizar", "sistema retorna erro" | | 8 | Oferta de ação não-autorizada |
"lançamento manual", "vou te enviar por e-mail", "vou te ligar" | | 9 | Cross-contamination entre clientes/turnos |
Nome/telefone muda inexplicavelmente (monitoramento manual) | | 10 | Resposta sem uso de base de conhecimento (hub
bypass) | response_usedsection_id IS NULL em prompts factuais | | 11 | Reset / perda de contexto mid-flow | IA se
re-apresenta no meio da conversa, mudança de persona, mix de engines |
Configuração
| Parâmetro | Valor | | --- | --- | | Frequência | Seg–sex às 09h BRT | | Critério de projeto ativo | ≥5 conversas
Agentic nas últimas 24h | | Janela de análise | Últimas 12h | | Filtro response_class | AgenticResponse
(categorias 1–10); todas as classes para categoria 11 | | Tamanho da amostra | 80% confiança / 8% margem (~64 max por
projeto) | | Seed aleatório | 42 (fixo) |
Como acessar os dados
Repositório
claudia-cloudhumans/agentic-view — toda execução fica versionada em data/YYYY-MM-DD.json.
Formato do JSON
{
"run_date": "2026-04-24",
"config": { "window_hours": 12, "confidence": 0.80, "margin_of_error": 0.08 },
"totals": { "active_projects": 11, "total_flaggeados": 263, "total_amostra": 177 },
"projects": [
{
"projectname": "cayena",
"conversas_agentic_24h": 282,
"flaggeados": 69,
"amostra_n": 34,
"amostra": [
{ "cloudchatid": "04221f71-...", "categorias": "5_quick_escalate" }
]
}
]
}
Como abrir uma conversa flaggeada
O cloudchatid é o ID interno da Cloud Humans. Para abrir no CloudChat ou Unthread:
1. Pegue o cloudchatid no JSON
2. Cruze no Metabase (public.conversation) para obter o helpdeskid
3. Abra no helpdesk do cliente (CloudChat / Zendesk / etc.)
Como invocar manualmente via Claude
A skill bad-interaction-detector está disponÃvel no Claude e responde a:
- "rodar o detector de atendimentos ruins"
- "amostra de bad interactions"
- "gerar amostra para revisão de IA"
- "quais projetos estão com problemas de comportamento"
:::info Útil quando você quer rodar fora do horário automatizado ou para um projeto especÃfico.
:::
Como interpretar os resultados
Por categoria
- Categorias 1, 2, 3, 4, 6, 8, 11 — alta confiança; quando bate, quase sempre é problema real
- Categoria 5 (fluxo quebrado) — heurÃstica estrutural; pode ter falso positivo (cliente pediu humano direto, por
exemplo)
- Categoria 7 (admissão de falha) — alta confiança, mas pode ser caso legÃtimo onde a IA não tinha acesso ao dado
- Categoria 10 (hub bypass) — alta confiança quando o tema é factual (polÃticas, prazos)
Cruzando com outros sinais
:::success Um ticket flaggeado + com frustration=CALM + com CSAT≥4 é o caso mais valioso: bug de comportamento que passa
despercebido pelos detectores existentes.
:::
Limitações conhecidas
:::warning
- Categoria 9 (cross-contamination) não é detectável via SQL regex — está documentada mas roda como monitoramento
manual
- Falhas de tool-calling (tag não atribuÃda, custom field não preenchido) não são detectadas — exigem cruzamento com o
helpdesk
- A amostra é aleatória, não priorizada por gravidade. Se quiser revisar os mais graves primeiro, ordene por número de
categorias hit
- HeurÃsticas estruturais (5_quick_escalate, 5_excess_no_resolve) podem ter falso positivo em projetos onde clientes
pedem humano direto com frequência
:::
Histórico
A biblioteca foi consolidada empiricamente em abril/2026, partindo da análise de tickets reportados como ruins no
crmbonusgiftback, com extensões iterativas a partir de validação nos projetos reise (que revelou o padrão hub bypass) e
cayena (que revelou o padrão reset de contexto).
Observações
- Para o repositório com os dados: claudia-cloudhumans/agentic-view
- Para entender as terminações de fluxo (relevante para análise da categoria 5): Diferença entre terminações de fluxo:
End Flow, Answer Ticket, Forward to Human e Close Ticket
- Para boas práticas de fluxos que evitam alguns dos padrões detectados: Como identificar e evitar falhas nos fluxos e
requisições do Eddie