LLMs en Overheidsjargon: Evaluatie & Besliskader

Onderzoek naar lexicale vereenvoudiging van jargon door Claude 4.5 en Llama 3.1. Inclusief foutenanalyse, hallucinaties en een praktisch besliskader.

#ai#llm#overheid#jargon#claude-4-5#llama-3-1#tekstvereenvoudiging#nederlands

Watch
Pitch

01

Abstract digital aesthetic, minimal data flows connecting government documents, clean white and navy blue palette, professional academic background

Voorbij de Zinslengte

Lexicale Vereenvoudiging van Overheidsjargon door LLMs: Een systematische evaluatie van Claude 4.5 en Llama 3.1

Nick Bergmans | Master Applied AI - HvA | 16 januari 2026

Made by

02

Split screen composition. Left side: A complex, intimidating red dutch government tax form stack. Right side: A single clear green simplified note. High contrast property.

KINDEROPVANGTOESLAG

Geld van de overheid voor opvang

Made by

03

Het Probleem: Semantiek ≠ Lengte

TRANSPARANT: Zonnebril (Zon + Bril = 🌞👓)

Betekenis is de som der delen.

ONDOORZICHTIG: Zwartwerker (Zwart + Werker ≠ ⚫👷)

Betekenis is abstract (illegaliteit).

HYPOTHESE: AI struikelt niet over lengte, maar over verborgen betekenis (opaciteit).

Minimalist diagram illustration showing 'sum of parts' versus 'hidden meaning'. A puzzle piece fitting perfectly versus a puzzle piece hiding a secret compartment.

Made by

04

Data & Sampling: Real-world Sources

📄 BRONNEN: Gemeente Amsterdam • Belastingdienst (Échte stukken, geen lab-data)

📊 STRATEGIE: Maximum Variation Sampling (Uitersten kiezen: Frequent vs Zeldzaam, Transparant vs Opaak)

🔢 N=30 (Pilot) → N=80 (Final Paper)

Stack of official dutch government documents and letters, Gemeente Amsterdam style, realistic, photography style

Made by

05

De Meetlat: SUBTLEX-NL

SUBTLEX-NL fungeert als thermometer voor alledaagsheid, niet als trainingsdata.

Chart

Made by

06

Modelvergelijking: David vs Goliath

Llama 3.1: Lokaal (Privacy-first), Gratis, Beperkte rekenkracht.

Claude 4.5: Cloud (Anthropic), SOTA-benchmark, $0.04/token.

Chart

Made by

07

De Lengteparadox: Methodologische Lessen

Inzicht: 'Max 2 zinnen' leidt tot uitval. B1-niveau vereist meer context (40 woorden).

Chart

Made by

08

Resultaten: Kwantitatief vs Kwaliteit

Chart

⚠️ Automated Metrics (Flesch-Douma) lijken vergelijkbaar, maar het aantal fouten verschilt met factor 9!

Made by

09

Het Gevaar: Hallucinaties

INPUT: ZWARTWERKER

LLAMA 3.1: 'Iemand met zwarte werkkleding in een fabriek.'
❌ Flesch-Douma: 75 (Voldoende)
❌ Betekenis: FOUT

A realistic photo-style image of a factory worker wearing black overalls in a factory setting, representing an AI misunderstanding of the word 'Zwartwerker'

Made by

10

Foutenanalyse Llama 3.1

Chart

Foutvoorbeelden:

• Zorgtoeslag → 'Geld voor school' (Feitelijk onjuist)
• Energietoeslag → 'Beloning voor besparen' (Omgekeerde betekenis)
• Terugvorderen → 'Je krijgt geld' (Omgekeerde betekenis)

Made by

11

Conclusie & Impact: Safe-to-Automate Matrix

2x2 decision matrix diagram flowchart style. Axis 1: Transparency. Axis 2: Technicality. Green quadrant: Safe (Llama). Red quadrant: Unsafe (Needs Claude/Human). Clean professional vector style.

BESLISREGEL: Gebruik Llama voor transparante, algemene termen (kostenbesparing). Gebruik Claude of Mens voor opake jargontermen (veiligheid).

Made by

12

Referenties

• Keuleers, E., et al. (2010). 'SUBTLEX-NL: A new frequency measure for Dutch'.
• Gemeente Amsterdam Datasets (2024-2025).
• Flesch-Douma Leesbaarheidsformule.
• Anthropic System Card (Claude 4.5).
• Meta Llama 3.1 Technical Report.

Made by

DESIGNER-MADE
PRESENTATION,
GENERATED FROM
YOUR PROMPT

Create your own professional slide deck with real images, data charts, and unique design in under a minute.

Generate For Free