UNEMAT-NATI: Núcleo de Automação e Tecnologia da Informação Institucional
Resumo
O projeto propõe o desenvolvimento de uma plataforma de Inteligência Artificial capaz de reunir, organizar e disponibilizar de forma inteligente
toda a documentação normativa da Universidade do Estado de Mato Grosso (UNEMAT) como portarias, resoluções e instruções normativas. A
iniciativa envolve a criação de um modelo de linguagem ajustado (fine-tuning) em português jurídico-administrativo, treinado sobre o acervo
institucional, permitindo consultas por meio de API interna e chatbot. O sistema busca agilizar o acesso à informação, promover padronização e
transparência nos processos administrativos e servir como base para pesquisa e inovação em IA aplicada à gestão pública
A digitalização crescente das instituições públicas tem criado novos desafios de acesso e gestão do conhecimento.
Na Universidade do Estado
de Mato Grosso (UNEMAT), o acervo de portarias, resoluções, instruções normativas e demais atos administrativos cresce continuamente e
passa por revisões frequentes. Esse corpo documental é essencial para dar segurança jurídica às decisões e orientar servidores, docentes e
estudantes. Contudo, a consulta manual desses documentos é lenta e suscetível a erros, e as plataformas de busca existentes não
compreendem o contexto das normas nem produzem respostas em linguagem natural.
Nos últimos anos, modelos de linguagem de grande porte (*Large Language Models* LLMs) emergiram como uma das tecnologias mais
promissoras da Inteligência Artificial (VERMA, 2025). Esses modelos, baseados na arquitetura *transformer*, conseguem entender e gerar
linguagem humana ao processar grandes volumes de texto. Apesar de sua versatilidade, os LLMs generalistas apresentam limitações quando
aplicados a domínios especializados: eles foram treinados em dados públicos e costumam ter um conhecimento superficial de terminologias
específicas (UBIAI, 2025). Em áreas como saúde, finanças ou jurídico-administrativo, os modelos genéricos podem interpretar incorretamente
siglas e procedimentos, ou gerar informações plausíveis, porém erradas, por falta de contexto. Como aponta a IBM (2024), um LLM específico de
domínio é um modelo treinado ou ajustado para um campo especializado, o que lhe permite executar tarefas de forma mais precisa e eficiente do
que um LLM genérico.
Para superar essas limitações, pesquisadores e empresas têm utilizado o **fine-tuning** (ajuste fino), no qual um LLM pré-treinado é refinado
com dados do domínio de interesse (KEYMAKR, 2025). Ao treinar o modelo com documentos internos (ex.: portarias, atas de reuniões,
normativas), ele aprende o vocabulário, as siglas e os procedimentos específicos da organização. Estudos mostram que essa adaptação melhora
a precisão, relevância e eficiência dos modelos, além de reduzir alucinações e ajudar no cumprimento de normas e regulamentos (UBIAI, 2025).
Técnicas recentes como **LoRA (Low-Rank Adaptation)** e quantização permitem ajustar apenas uma pequena parte dos parâmetros de um
LLM, reduzindo o custo computacional e facilitando atualizações rápidas (KEYMAKR, 2025).
Além de melhorar a qualidade das respostas, o fine-tuning levanta preocupações de privacidade, pois os modelos podem memorizar partes
sensíveis dos dados de treinamento. Pesquisadores demonstraram que, durante o fine-tuning com dados repetidos, a taxa de vazamento de
informações sensíveis pode aumentar de 05% para até 75%, evidenciando riscos de exposição de dados (ZHANG et al., 2025). Estratégias de
deduplicação, uso de técnicas de privacidade diferencial e filtragem de saídas são recomendadas para mitigar esses riscos (ZHANG et al., 2025).
No contexto da UNEMAT, as limitações dos LLMs genéricos tornam-se ainda mais evidentes. As normas internas não estão presentes nos
conjuntos de dados públicos usados no treinamento dos modelos comerciais, e a legislação institucional muda frequentemente. Utilizar serviços
externos exigiria compartilhar documentos sensíveis com terceiros, comprometendo a confidencialidade e a conformidade com legislações como
a LGPD. Como observa uma análise de soluções corporativas, LLMs públicos não conhecem procedimentos internos ou fluxos de trabalho da
organização; para que um modelo entenda a linguagem do negócio, é preciso ajustá-lo com dados proprietários (KEYMAKR, 2025).
Criar um LLM próprio, ajustado às normas da UNEMAT, tem várias vantagens:
* **Acurácia e relevância**: Fine-tuning em dados institucionais permite que o modelo compreenda o jargão jurídico-administrativo, resultando em
respostas mais precisas (UBIAI, 2025).
* **Eficiência**: Modelos especializados exigem menos esforço para interpretar perguntas e gerar respostas, melhorando a eficiência das
consultas (IBM, 2024).
* **Redução de alucinações**: Ao treinar com dados confiáveis e curados, o risco de o modelo produzir informações incorretas diminui (VERMA,
2025).
* **Conformidade e controle**: Um modelo mantido internamente pode ser atualizado sempre que uma portaria ou resolução é alterada. O uso de
técnicas de LoRA e quantização facilita essas atualizações contínuas, sem necessidade de treinar o modelo completo (KEYMAKR, 2025).
* **Segurança e privacidade**: Manter o treinamento e a hospedagem do modelo localmente impede que dados sensíveis saiam do domínio da
universidade. Embora haja riscos de memorizar dados, técnicas de controle e monitoramento permitem reduzir esses vazamentos (ZHANG et al.,
2025).
* **Pesquisa e inovação**: Desenvolver um LLM institucional cria oportunidades de pesquisa em processamento de linguagem natural e
inteligência artificial, além de fortalecer a inovação dentro da universidade (UBIAI, 2025).
Em resumo, a UNEMAT precisa de um **sistema inteligente de consulta** capaz de compreender e articular as normas internas de maneira
transparente e atualizada. As evidências mostram que LLMs genéricos não são adequados para esse fim (UBIAI, 2025), e que o fine-tuning com
dados proprietários é essencial para alcançar desempenho de nível institucional (KEYMAKR, 2025). Portanto, manter um modelo próprio,
continuamente atualizado e alinhado às políticas internas, é não apenas justificável, mas necessário para garantir eficiência, confiabilidade e
soberania sobre as informações da universidade.