# LLMs en Overheidsjargon: Evaluatie & Besliskader
> Onderzoek naar lexicale vereenvoudiging van jargon door Claude 4.5 en Llama 3.1. Inclusief foutenanalyse, hallucinaties en een praktisch besliskader.

Tags: ai, llm, overheid, jargon, claude-4-5, llama-3-1, tekstvereenvoudiging, nederlands
## Lexicale Vereenvoudiging van Overheidsjargon door LLMs
Presentatie door Nick Bergmans (HvA) over de evaluatie van Claude 4.5 en Llama 3.1 bij het versimpelen van complexe ambtelijke termen.

## Het Probleem: Semantiek vs. Lengte
* AI heeft moeite met 'opake' termen (woorden waarvan de betekenis niet direct af te leiden is uit de onderdelen, zoals 'zwartwerker').
* Hypothese: Fouten ontstaan door verborgen betekenis, niet door de lengte van het woord.

## Methodologie en Modellen
* **Bronnen:** Data van Gemeente Amsterdam en de Belastingdienst.
* **Modellen:** Vergelijking tussen het lokale Llama 3.1 (8B parameters) en Claude 4.5 (175B parameters).
* **Meetlat:** Gebruik van SUBTLEX-NL voor woordfrequentie en de Flesch-Douma leesbaarheidsformule.

## Belangrijkste Resultaten
* Geautomatiseerde metrics (Flesch-Douma) zijn misleidend: hoewel scores vergelijkbaar lijken, maakt Llama 3.1 negen keer meer inhoudelijke fouten.
* **Hallucinaties:** Llama 3.1 definieert 'zwartwerker' als iemand met zwarte kleding en 'zorgtoeslag' als geld voor school.
* **De Lengteparadox:** Voor een goed B1-niveau is vaak meer context (ca. 40 woorden) nodig dan strikte beknoptheid (max 2 zinnen).

## Conclusie: Safe-to-Automate Matrix
* Llama 3.1 is veilig voor algemene, transparante termen.
* Claude 4.5 of menselijke redactie is vereist voor complexe, technische of opake jargontermen om fouten in cruciale informatie (zoals toeslagen) te voorkomen.
---
This presentation was created with [Bobr AI](https://bobr.ai) — an AI presentation generator.