



const main = async () => {
const response = await fetch('https://api.ai.cc/v1/ocr', {
method: 'POST',
headers: {
Authorization: 'Bearer ',
'Content-Type': 'application/json',
},
body: JSON.stringify({
document: {
type: 'document_url',
document_url: 'https://css4.pub/2015/textbook/somatosensory.pdf'
},
model: 'mistral/mistral-ocr-latest',
}),
}).then((res) => res.json());
console.log(response);
};
main();
import requests
def main():
response = requests.post(
"https://api.ai.cc/v1/ocr",
headers={
"Authorization": "Bearer ",
"Content-Type": "application/json",
},
json={
"document": {
"type": "document_url",
"document_url": "https://css4.pub/2015/textbook/somatosensory.pdf"
},
"model": "mistral/mistral-ocr-latest",
},
)
response.raise_for_status()
data = response.json()
print(data)
if __name__ == "__main__":
main()

Detalhes do produto
Mistral OCR, desenvolvido por IA Mistral, representa um grande avanço na tecnologia de Reconhecimento Óptico de Caracteres (OCR). Esta API avançada foi meticulosamente projetada para uma compreensão superior de documentos, capaz de processar uma ampla gama de formatos, incluindo PDFs, imagens e documentos digitalizados. Ela se destaca na extração de texto, tabelas complexas, equações intrincadas e até mesmo imagens com notável precisão, preservando fielmente a estrutura e o layout do documento original.
✨ Principais funcionalidades do Mistral OCR
Extração de texto de alta precisão: Com uma impressionante precisão geral de 94,89%, o Mistral OCR supera muitos concorrentes. Ele extrai texto de forma confiável de documentos digitalizados, anotações manuscritas e diversos conteúdos multilíngues, fornecendo dados confiáveis para aplicações e análises subsequentes.
Compreensão multimodal de documentos: Esta API processa PDFs e imagens de forma eficiente, reconhecendo e preservando de forma inteligente o contexto e as relações entre elementos intercalados, como imagens, tabelas, gráficos e equações matemáticas. Os resultados são entregues em formatos estruturados Markdown ou JSON, prontos para fluxos de trabalho de IA.
Ampla proficiência em vários idiomas: Com suporte para milhares de idiomas e uma precisão excepcional de 99,02% em correspondência aproximada, o Mistral OCR é uma ferramenta indispensável para empresas globais. Ele lida sem esforço com diversos conjuntos de documentos, do hindi ao chinês, garantindo operações globais perfeitas.
Saída estruturada e preservação do layout: O Mistral OCR preserva meticulosamente a hierarquia do documento original, incluindo cabeçalhos, parágrafos, listas e tabelas. Isso garante que os resultados estejam prontos para IA, facilitando a integração com sistemas de Geração Aumentada por Recuperação (RAG), indexação de pesquisa eficiente e fluxos de trabalho automatizados.
Funcionalidade de documento como prompt: Ao permitir que os usuários consultem diretamente o conteúdo específico de documentos ou extraiam dados estruturados por meio de instruções baseadas em IA, esse recurso aprimora significativamente a precisão na recuperação de informações e em tarefas analíticas.
Processamento de alta velocidade: Otimizado para repositórios de documentos em larga escala, o Mistral OCR pode processar até 2000 páginas por minuto. Isso reduz drasticamente o tempo de processamento para empresas, instituições de pesquisa e qualquer organização que lide com grandes volumes de documentos.
Auto-hospedagem para privacidade de dados: Para organizações com requisitos rigorosos de segurança e conformidade, o Mistral OCR oferece opções de implantação local, garantindo que os dados confidenciais permaneçam protegidos em sua infraestrutura privada.
⚙️ Especificações Técnicas e Benchmarks
O desempenho robusto do Mistral OCR deriva de sua arquitetura baseada em Transformers, que apresenta mecanismos de atenção especializados para uma compreensão profunda do contexto e do layout. Ele suporta entradas multimodais (PDFs, imagens) e fornece saídas estruturadas (Markdown, JSON) otimizadas para sistemas RAG.
Principais destaques de desempenho:
- ✅ Janela de contexto: Processos até 1000 páginas A pedido.
- ⚡️ Velocidade de processamento: Suporta até 2000 páginas por minuto em um único nó.
- 💰 Preços da API: Altamente competitivo em US$ 0,00105 por página.
- ⚠️ Limitações: Tamanho máximo do arquivo de 50 MB e número máximo de páginas de 1000 páginas A pedido.
Critérios de precisão:
- 📊 Precisão geral: 94,89% (supera o Google Document AI, o Azure OCR e o GPT-4o)
- ➗ Expressões matemáticas: 94,29%
- 🌍 Texto multilíngue: 89,55%
- 📄 Documentos digitalizados: 98,96%
- 🔠 Reconhecimento de tabelas: 96,12%

Comparação das métricas de OCR do Mistral
💡 Casos de uso ideais para o OCR Mistral
- 🔬 Pesquisa e Academia: Digitalize artigos científicos de forma eficiente, incluindo equações e gráficos complexos, em formatos compatíveis com IA para análises avançadas.
- 💼 Negócios e Finanças: Automatize o processamento de faturas, contratos e relatórios financeiros para extração de dados estruturados e obtenção de insights rápidos.
- ⚖️ Questões Legais e de Conformidade: Converta documentos e registros legais em formatos digitais indexados e de fácil busca, simplificando os processos de conformidade e descoberta de provas.
- 📚 Educação: Transforme notas de aula, livros didáticos e materiais educacionais em conteúdo digital acessível para alunos e educadores.
- 📞 Atendimento ao Cliente: Indexar manuais do usuário e documentos de suporte reduz significativamente os tempos de resposta e aumenta a satisfação geral do cliente.
🆚 Mistral OCR: Uma Vantagem Competitiva
O Mistral OCR demonstra consistentemente capacidades superiores de compreensão de documentos quando comparado a soluções de OCR tradicionais e outras soluções baseadas em IA:
- vs. Gemini 2.5 Flash: O Mistral OCR possui precisão de OCR superior (94,89% contra ~88,49%) e reconhecimento de tabelas, embora o Gemini ofereça raciocínio multimodal geral mais abrangente.
- vs. Google Docs AI: Apresenta maior precisão em expressões matemáticas (94,29% vs. ~90%) e em textos multilíngues (89,55% vs. ~85%). Também oferece processamento mais rápido (2000 vs. ~1000 páginas/min).
- vs. Azure OCR: Proporciona melhor preservação do layout e resultados mais estruturados, embora o Azure normalmente ofereça integrações empresariais mais abrangentes.
- vs. GPT-4o: Apresenta melhor desempenho no processamento de documentos digitalizados (98,96% vs. ~95%) e equações complexas. No entanto, o GPT-4o oferece maior versatilidade para tarefas além do OCR básico.
⚠️ Considerações e limitações importantes
- Risco de alucinações: O OCR da Mistral pode ocasionalmente inferir textos ausentes ou pouco claros, o que pode levar a erros em aplicações críticas, como o processamento de documentos jurídicos ou financeiros.
- Sem classificação de documentos integrada: São necessários sistemas adicionais para organizar e categorizar os dados extraídos, pois essa não é uma funcionalidade inerente à API.
- Classificação incorreta do texto: Em alguns casos, páginas inteiras podem ser erroneamente tratadas como imagens, resultando potencialmente em extração incompleta do texto.
- Restrições de arquivo: A API possui limites específicos, processando arquivos de até um máximo de 50 MB e 1000 páginas por solicitação individual.
🔗 Integração de API perfeita
O Mistral OCR é facilmente acessível através da API de IA/ML, oferecendo suporte abrangente para linguagens de programação populares, incluindo Python, JavaScript e cURL. Ele fornece resultados estruturados em formatos JSON ou Markdown, garantindo fácil integração em fluxos de trabalho existentes.
Para obter instruções detalhadas de configuração e exemplos de uso, consulte o manual oficial. Documentação da API OCR da Mistral.
❓ Perguntas frequentes (FAQs)
P1: Que tipos de documentos o Mistral OCR pode processar?
A1: O Mistral OCR pode processar uma ampla variedade de documentos, incluindo PDFs, diversos formatos de imagem e documentos digitalizados, extraindo com precisão texto, tabelas, equações e imagens.
P2: Qual a precisão do OCR da Mistral em comparação com outras soluções?
A2: O Mistral OCR alcança uma precisão geral de 94,89%, superando os principais concorrentes, como o Google Document AI, o Azure OCR e o GPT-4o, em diversas áreas importantes, como matemática, texto multilíngue e reconhecimento de documentos digitalizados.
P3: O Mistral OCR consegue lidar com vários idiomas?
A3: Sim, ele suporta milhares de idiomas com uma precisão de correspondência aproximada de 99,02%, tornando-o altamente eficaz para aplicações globais e conjuntos de documentos diversos.
Q4: Quais são as principais limitações do Mistral OCR?
A4: As principais limitações incluem possíveis alucinações (tentativa de adivinhar o significado de um texto ilegível), falta de classificação de documentos integrada, classificação incorreta ocasional de texto como imagem e restrições de arquivo de 50 MB e 1000 páginas por solicitação.
Q5: A hospedagem própria é uma opção para o Mistral OCR?
A5: Sim, o Mistral OCR oferece opções de implantação local, ideais para organizações com requisitos rigorosos de privacidade e segurança de dados, permitindo que dados confidenciais permaneçam dentro de sua infraestrutura privada.
Playground de IA



Conecte-se