Esta FAQ explica, de forma prática, como cadastrar, editar, ativar/desativar e sincronizar origens de conteúdo do seu projeto — além de interpretar os status e configurar a recorrência de coleta.
O que são “Origens de conteúdo”?
São configurações que dizem de onde a ClaudIA deve buscar conhecimento (ex.: seu Help Center).
Cada origem tem: URL inicial, filtros de caminho, cadência/horário de sincronização e uma tag padrão.
Onde encontro a tela?
No projeto, acesse Conteúdos → Origens. Abaixo o exemplo da tela em um projeto sem nenhuma sincronização ativa ainda.

Caso o projeto já contenha sincronizações ativas, você verá uma lista com as seguintes colunas:
-
URL Inicial
-
Status da última execução (ex.: Sincronizado, Erro, Cancelado)
-
Última sincronização
-
Estado (Ativado/Desativado)
-
Ações: Sincronizar, Editar, Ver URLs
Você pode ordenar clicando no cabeçalho das colunas.
Como adiciono ou edito uma origem?

-
Clique em Adicionar Origem (ou Editar numa existente).
-
No modal, preencha:
-
Agendamento (Cadência & Hora local)
Selecione Diário / Semanal / Mensal e um horário. A interface mostra:-
A próxima execução (relativa e com data/hora local).
-
O sistema converte tudo para cron em UTC automaticamente.
-
-
URL Inicial
Deve ser uma URL válida com protocolo http/https. -
Filtro de Caminho (obrigatório)
Sincroniza apenas páginas cujo caminho começa com um destes prefixos (um por linha).
→ Cada valor deve começar com “/” e ter mais de 1 caractere.
Ex.:/docs,/hc/pt -
Excluir Filtro de Caminho (opcional)
Caminhos (no mesmo formato do filtro) a serem ignorados.
Ex.:/portal-interno,/privado -
Tag Padrão (opcional)
Tag aplicada aos conteúdos originados desta fonte (ajuda no filtro/pesquisa).
-
-
Salve em Atualizar Origem (Salvar).

Validações importantes
-
URL inválida ou com protocolo diferente de http/https gera erro.
-
Cada item do filtro deve começar com “/”;
/sozinho não é aceito.
Como funciona a recorrência (agendamento)?
-
Você escolhe Diário / Semanal / Mensal.
-
O sistema calcula o agendamento considerando hora no seu fuso local e exibe a próxima execução estimada.
Exemplos:
-
Diário às 06:00 (local) → roda todo dia neste horário.
-
Semanal (2ª às 07:00) → roda toda segunda no horário escolhido.
-
Mensal (dia 15 às 05:00) → roda todo dia 15 neste horário.
Dica: você pode alterar a cadência a qualquer momento; a próxima execução já considera a nova configuração.
Como ligo, desligo, inicio ou paro uma sincronização?


-
Ativar/Desativar: use o toggle na coluna Estado.
-
Ativado: a origem participa das execuções (agendadas ou manuais).
-
Desativado: a origem fica pausada, sem rodar nem manualmente.
-
-
Sincronizar (manual): clique em Sincronizar.
O status muda para Iniciando/Em execução. -
Parar: enquanto estiver Em execução, o botão Parar aparece; clique para cancelar a execução atual.
Se eu desativo uma origem, a ClaudIA deixa de usar esse conteúdo?
Depende do tipo de desativação:
-
🔄 Desativar sincronização: a ClaudIA para de atualizar o conteúdo dessa origem, mas ainda usa o que já foi sincronizado anteriormente.
-
❌ Remover origem: a ClaudIA deixa de usar completamente aquele conteúdo.
Se o objetivo é controlar o que a ClaudIA usa, o ideal é remover a origem (em vez de apenas desativar a sincronização) ou usar filtros por origem na tela de conteúdo para isolar e excluir materiais de uma origem específica.
Como vejo as URLs que foram extraídas?
Clique em Ver URLs. Um modal lista todas as URLs coletadas para aquela origem.
Você pode abrir cada uma em nova aba para conferir o conteúdo.


O que significam os status?
Os “badges” de status aparecem na coluna Status:
-
Sincronizando
A coleta está em andamento. -
Sincronizado
A última execução terminou com sucesso. -
Erro
Algo falhou. Passe o mouse sobre o badge para ver detalhes do erro. Caso não apareça entre em contato com o nosso time. -
Cancelado
A execução foi interrompida (manualmente ou pelo sistema). -
Pendente
Ainda não foi executada a sincronização nenhuma vez.
A página atualiza o status automaticamente: mais rápido enquanto há execuções, e em intervalos maiores quando tudo está estável.
Boas práticas para filtros de caminho
-
Seja específico: use prefixos que representem as seções relevantes.
Ex.:/hc/pt,/ajuda/,/docs/produto-x -
Evite “/” genérico: isso tenta varrer o site todo.
-
Use “Rotas para ignorar na sincronização” para pular áreas internas ou sensíveis.
Ex.:/admin,/conta,/portal-interno
Erros comuns e como resolver
-
“URL inválida” / “Protocolo inválido”
Confirme que a URL começa com http:// ou https:// e está correta. -
“O caminho deve começar com ‘/’”
Ajuste os itens do filtro para o formato /seu-prefixo. -
Status “Erro”
Passe o mouse sobre o badge para ler o motivo (ex.: etapa com falha).
Revise filtros/URL e tente Sincronizar novamente.
Caso o erro persista, entre em contato com o nosso time. -
Nenhuma URL listada em “Ver URLs”
Verifique se os filtros de caminho incluem, de fato, as páginas desejadas.
Posso organizar ou pesquisar o que foi coletado depois?
Sim — os conteúdos coletados aparecem na aba Conteúdos, onde você pode pesquisar pela url desejada e os conteúdos aparecerão**.** Caso precise editar em massa algo que foi colocado incorretamente, você pode ver aqui como fazer.
Dentro da mesma origem há conteúdos com labels/tags diferentes. É possível sinalizar isso?
Sim.
Você pode preencher manualmente as tags (labels) em cada conteúdo sincronizado.
Quando você faz isso manualmente, essas tags não são sobrescritas nas próximas sincronizações — apenas o conteúdo textual é atualizado.
Assim, é possível organizar uma mesma origem em múltiplas categorias ou filtros de uso.
Dicas finais
-
Comece com uma origem por área (ex.: Help Center PT/EN separados) e filtros claros.
-
Agende para horários de baixo tráfego do seu site.
-
Revise “Ver URLs” depois da primeira execução para garantir que só o que interessa está sendo captado.
-
Use uma Tag Padrão de fácil idêntificação para facilitar buscas e relatórios por origem.
Como você vai visualizar na Conversa
Assim como na aba de "Conteúdo", na aba de Conversa você também poderá visualizar se o conteúdo é de fonte externa ou não.

📌 Lista de Tags HTML ignoradas por padrão
Durante o processo de refinamento, o agente de extração descarta automaticamente diversos elementos que normalmente não são úteis para a base de conhecimento.
Esses seletores foram definidos para reduzir ruído visual e estrutural (menus, anúncios, comentários, formulários, etc.), mantendo apenas o conteúdo principal.
Estrutura da página
#footer
#header
#nav
nav
footer
Scripts e estilos
script
style
noscript
Mídia
svg
img
audio
video
Navegação e menus
.sidebar
.menu
.navigation
.breadcrumb
.breadcrumbs
.pagination
.pager
.page-navigation
Anúncios e banners
.advertisement
.ads
.ad-banner
.cookie-banner
.cookie-notice
.gdpr-notice
Social e compartilhamento
.social-share
.social-buttons
.share-buttons
Formulários e assinaturas
.newsletter
.subscription
.signup-form
.search-box
.search-form
.search-bar
Conteúdo relacionado
.related-posts
.recommended
.suggestions
Comentários e discussões
.comments
.comment-section
.discussion
Metadados e autoria
.tags
.tag-list
.categories
.author-bio
.author-info
.byline
.meta
.metadata
.post-meta
Widgets e sidebars
.widget
.widgets
.sidebar-widget
Popups e overlays
.popup
.modal
.overlay
.lightbox
Acessibilidade e navegação oculta
.skip-link
.screen-reader-text
.sr-only
.print-only
.no-print
Atributos de acessibilidade
[role='alert']
[role='banner']
[role='navigation']
[role='complementary']
[role='dialog']
[role='alertdialog']
[role="region"][aria-label*="skip" i]
[aria-hidden='true']
[aria-modal='true']
Elementos invisíveis
.hidden
.invisible