Made byBobr AI

LLMs en Overheidsjargon: Evaluatie & Besliskader

Onderzoek naar lexicale vereenvoudiging van jargon door Claude 4.5 en Llama 3.1. Inclusief foutenanalyse, hallucinaties en een praktisch besliskader.

#ai#llm#overheid#jargon#claude-4-5#llama-3-1#tekstvereenvoudiging#nederlands
Watch
Pitch
Abstract digital aesthetic, minimal data flows connecting government documents, clean white and navy blue palette, professional academic background

Voorbij de Zinslengte

Lexicale Vereenvoudiging van Overheidsjargon door LLMs: Een systematische evaluatie van Claude 4.5 en Llama 3.1

Nick Bergmans | Master Applied AI - HvA | 16 januari 2026
Made byBobr AI
Split screen composition. Left side: A complex, intimidating red dutch government tax form stack. Right side: A single clear green simplified note. High contrast property.

KINDEROPVANGTOESLAG

Geld van de overheid voor opvang

Made byBobr AI

Het Probleem: Semantiek β‰  Lengte

TRANSPARANT: Zonnebril (Zon + Bril = πŸŒžπŸ‘“)

Betekenis is de som der delen.

ONDOORZICHTIG: Zwartwerker (Zwart + Werker β‰  βš«πŸ‘·)

Betekenis is abstract (illegaliteit).

HYPOTHESE: AI struikelt niet over lengte, maar over verborgen betekenis (opaciteit).
Minimalist diagram illustration showing 'sum of parts' versus 'hidden meaning'. A puzzle piece fitting perfectly versus a puzzle piece hiding a secret compartment.
Made byBobr AI

Data & Sampling: Real-world Sources

πŸ“„ BRONNEN: Gemeente Amsterdam β€’ Belastingdienst (Γ‰chte stukken, geen lab-data)
πŸ“Š STRATEGIE: Maximum Variation Sampling (Uitersten kiezen: Frequent vs Zeldzaam, Transparant vs Opaak)
πŸ”’ N=30 (Pilot) β†’ N=80 (Final Paper)
Stack of official dutch government documents and letters, Gemeente Amsterdam style, realistic, photography style
Made byBobr AI

De Meetlat: SUBTLEX-NL

SUBTLEX-NL fungeert als thermometer voor alledaagsheid, niet als trainingsdata.

Chart
Made byBobr AI

Modelvergelijking: David vs Goliath

Llama 3.1: Lokaal (Privacy-first), Gratis, Beperkte rekenkracht.

Claude 4.5: Cloud (Anthropic), SOTA-benchmark, $0.04/token.
Chart
Made byBobr AI

De Lengteparadox: Methodologische Lessen

Inzicht: 'Max 2 zinnen' leidt tot uitval. B1-niveau vereist meer context (40 woorden).

Chart
Made byBobr AI

Resultaten: Kwantitatief vs Kwaliteit

Chart
⚠️ Automated Metrics (Flesch-Douma) lijken vergelijkbaar, maar het aantal fouten verschilt met factor 9!
Made byBobr AI

Het Gevaar: Hallucinaties

INPUT: ZWARTWERKER

LLAMA 3.1: 'Iemand met zwarte werkkleding in een fabriek.'
❌ Flesch-Douma: 75 (Voldoende)
❌ Betekenis: FOUT
A realistic photo-style image of a factory worker wearing black overalls in a factory setting, representing an AI misunderstanding of the word 'Zwartwerker'
Made byBobr AI

Foutenanalyse Llama 3.1

Chart
Foutvoorbeelden:

β€’ Zorgtoeslag β†’ 'Geld voor school' (Feitelijk onjuist)
β€’ Energietoeslag β†’ 'Beloning voor besparen' (Omgekeerde betekenis)
β€’ Terugvorderen β†’ 'Je krijgt geld' (Omgekeerde betekenis)
Made byBobr AI

Conclusie & Impact: Safe-to-Automate Matrix

2x2 decision matrix diagram flowchart style. Axis 1: Transparency. Axis 2: Technicality. Green quadrant: Safe (Llama). Red quadrant: Unsafe (Needs Claude/Human). Clean professional vector style.
BESLISREGEL: Gebruik Llama voor transparante, algemene termen (kostenbesparing). Gebruik Claude of Mens voor opake jargontermen (veiligheid).
Made byBobr AI

Referenties

β€’ Keuleers, E., et al. (2010). 'SUBTLEX-NL: A new frequency measure for Dutch'.
β€’ Gemeente Amsterdam Datasets (2024-2025).
β€’ Flesch-Douma Leesbaarheidsformule.
β€’ Anthropic System Card (Claude 4.5).
β€’ Meta Llama 3.1 Technical Report.
Made byBobr AI
Bobr AI

DESIGNER-MADE
PRESENTATION,
GENERATED FROM
YOUR PROMPT

Create your own professional slide deck with real images, data charts, and unique design in under a minute.

Generate For Free

LLMs en Overheidsjargon: Evaluatie & Besliskader

Onderzoek naar lexicale vereenvoudiging van jargon door Claude 4.5 en Llama 3.1. Inclusief foutenanalyse, hallucinaties en een praktisch besliskader.

Voorbij de Zinslengte

Lexicale Vereenvoudiging van Overheidsjargon door LLMs: Een systematische evaluatie van Claude 4.5 en Llama 3.1

Nick Bergmans | Master Applied AI - HvA | 16 januari 2026

KINDEROPVANGTOESLAG

Geld van de overheid voor opvang

Het Probleem: Semantiek β‰  Lengte

TRANSPARANT: Zonnebril (Zon + Bril = πŸŒžπŸ‘“)

ONDOORZICHTIG: Zwartwerker (Zwart + Werker β‰  βš«πŸ‘·)

HYPOTHESE: AI struikelt niet over lengte, maar over verborgen betekenis (opaciteit).

Data & Sampling: Real-world Sources

BRONNEN: Gemeente Amsterdam β€’ Belastingdienst (Γ‰chte stukken, geen lab-data)

STRATEGIE: Maximum Variation Sampling (Uitersten kiezen: Frequent vs Zeldzaam, Transparant vs Opaak)

N=30 (Pilot) β†’ N=80 (Final Paper)

De Meetlat: SUBTLEX-NL

Modelvergelijking: David vs Goliath

Llama 3.1: Lokaal (Privacy-first), Gratis, Beperkte rekenkracht.<br><br>Claude 4.5: Cloud (Anthropic), SOTA-benchmark, $0.04/token.

De Lengteparadox: Methodologische Lessen

Resultaten: Kwantitatief vs Kwaliteit

Automated Metrics (Flesch-Douma) lijken vergelijkbaar, maar het aantal fouten verschilt met factor 9!

Het Gevaar: Hallucinaties

INPUT: ZWARTWERKER

LLAMA 3.1: 'Iemand met zwarte werkkleding in een fabriek.'<br>❌ Flesch-Douma: 75 (Voldoende) <br>❌ Betekenis: FOUT

Foutenanalyse Llama 3.1

β€’ Zorgtoeslag β†’ 'Geld voor school' (Feitelijk onjuist)<br>β€’ Energietoeslag β†’ 'Beloning voor besparen' (Omgekeerde betekenis)<br>β€’ Terugvorderen β†’ 'Je krijgt geld' (Omgekeerde betekenis)

Conclusie & Impact: Safe-to-Automate Matrix

BESLISREGEL: Gebruik Llama voor transparante, algemene termen (kostenbesparing). Gebruik Claude of Mens voor opake jargontermen (veiligheid).

Referenties

β€’ Keuleers, E., et al. (2010). 'SUBTLEX-NL: A new frequency measure for Dutch'.<br>β€’ Gemeente Amsterdam Datasets (2024-2025).<br>β€’ Flesch-Douma Leesbaarheidsformule.<br>β€’ Anthropic System Card (Claude 4.5).<br>β€’ Meta Llama 3.1 Technical Report.

  • ai
  • llm
  • overheid
  • jargon
  • claude-4-5
  • llama-3-1
  • tekstvereenvoudiging
  • nederlands