Biblioteca · Repositório

Arize-ai/phoenix

Avaliação e observabilidade · Python · Elastic License 2.0

É a caixa-preta de avião para a sua IA. Quando o agente faz algo estranho, ele grava cada passo do raciocínio pra você abrir depois e entender exatamente onde a coisa saiu do trilho.

O que é, em uma frase honesta

Phoenix é uma plataforma de observabilidade para sistemas de IA: ela registra o passo a passo de cada interação do agente, qual pergunta entrou, quais documentos foram consultados, o que o modelo decidiu, quanto custou e quanto demorou. Esse registro detalhado se chama trace, e é o que permite abrir uma resposta ruim e enxergar a causa, em vez de adivinhar. Além de gravar, ela avalia a qualidade das respostas e organiza experimentos pra você comparar versões.

Pense num painel de bordo e num gravador de voo, juntos, para a IA da empresa.

Para que serve na prática

Serve pra responder a pergunta que tira o sono de quem opera IA em produção: por que o agente errou com aquele cliente, especificamente? Com o trace na mão, o time vê se o problema foi a busca que trouxe o documento errado, o prompt mal escrito ou o modelo que alucinou, e corrige a causa certa. Serve também pra acompanhar custo e latência ao longo do tempo, e pra benchmarkar se uma mudança melhorou de verdade a qualidade das respostas.

Quando faz sentido pra você que lidera

Faz sentido quando a IA já está em produção e cada erro tem dono e consequência. Sem observabilidade, todo incidente vira 'a IA falhou' sem explicação, e isso é ingovernável: você não consegue prometer melhora porque não enxerga a causa. Como líder, o que importa não é operar a ferramenta, é exigir que o seu time tenha essa visibilidade antes de colocar um agente pra falar com cliente.

Operar IA sem trace é como pilotar sem instrumentos: funciona até o dia que não funciona, e aí ninguém sabe o que aconteceu.

Por que está no mapa

Está no mapa porque observabilidade é o que separa um piloto de IA bonito de uma operação de IA confiável. Conforme as empresas saem da demonstração e botam agentes pra tomar decisão real, o gargalo deixa de ser construir e passa a ser enxergar e confiar. Phoenix representa essa camada de maturidade, a infraestrutura invisível que transforma 'a IA respondeu' em 'eu sei por que a IA respondeu assim'.

Ver no GitHub →

O que você achou desta página?

Recomendaria esta página para alguém do seu time?