Veel organisaties voelen dat AI agents potentie hebben, maar worstelen met de vraag waar te beginnen. Bij Pantalytics kregen we recent de kans om dit samen met een logistiek bedrijf concreet te maken. Niet via een groot implementatietraject, maar via een paar workshops. Het doel was helder: onderzoeken hoe AI agents bovenop bestaande systemen waarde kunnen toevoegen, zonder direct alles om te gooien.
In deze blog delen we wat we hebben gedaan en vooral wat we samen hebben geleerd. Zowel vanuit het perspectief van de klant als vanuit onszelf als partner.
De aanleiding was herkenbaar. Binnen de organisatie komt een groot deel van de operationele communicatie binnen via een gedeelde mailbox. Denk aan vragen als waar blijft mijn order, hoe zit het met deze truck, is er schade gemeld, of een verzoek om statusinformatie. In het verleden is gekeken naar ticketing systemen, maar die bleken lastig volledig te implementeren.
De vraag was niet om alsnog een klassiek ticketing systeem te implementeren, maar om te verkennen of AI agents hier slimmer mee om kunnen gaan. Bijvoorbeeld door e-mails automatisch te classificeren, te verrijken met context en waar mogelijk alvast een voorstel voor een antwoord of vervolgstap te maken.
We hebben dit opgezet als een workshop met goede opvolging met het IT en data team van de klant. De insteek was nadrukkelijk hands-on. Geen slides en vergezichten, maar samen bouwen en testen.
In de workshops hebben we gekeken hoe AI agents kunnen worden toegevoegd bovenop bestaande systemen. Daarbij hebben we geëxperimenteerd met onder andere N8N als low-code oplossing, Supabase als lichte database, Outlook voor de mailbox integratie en evaluation tooling om output te meten. Aan de AI-kant hebben we gewerkt met OpenAI, maar expliciet benoemd dat een model als Mistral ook mogelijk was geweest.
De kern was een agent die e-mails uit de gedeelde mailbox verwerkt, relevante informatie extraheert, deze structureert en opslaat en een eerste interpretatie of actievoorstel genereert. De acties verlopen via labelling (categorie toewijzen)
Een belangrijke observatie was dat je met low-code tooling verrassend snel ver kunt komen. N8N maakte het mogelijk om in korte tijd een werkende end-to-end flow te bouwen. Voor het team was dit ook waardevol om te begrijpen hoe dit type tooling zich verhoudt tot andere platforms zoals MuleSoft, Make, Zapier, Microsoft Power Automate of enterprise automation oplossingen.
Tegelijkertijd werd duidelijk waar de frictie zit. Autorisatie en security zijn geen bijzaak. Een workflow die toegang krijgt tot een mailbox heeft best vergaande permissions nodig. Klantgegevens worden gelezen, doorgestuurd naar een AI model en deels opgeslagen in een database. Dat betekent dat privacy, compliance en governance direct meespelen.
Ook de bestaande Oracle database van de klant maakte integratie complexer dan wanneer je met een modernere cloud database werkt. Dat is geen onoverkomelijk probleem, maar het vertraagt experimenten en vraagt meer afstemming.
Uiteindelijk moet een proof of concept dan worden overgenomen in de al gekozen stack en daar komt een flinke dosis frictie bij kijken.
Technisch gezien was het relatief eenvoudig om een accuracy van 80 tot 90 procent te halen in classificatie en interpretatie. De echte uitdaging begint daarna. Hoe meet je die accuracy structureel (antwoord: goede evaluation)? Hoe ga je om met uitzonderingen? Hoe bouw je feedback loops in zodat het systeem leert van fouten?
Hier komt prompt engineering, evaluation en monitoring samen. Prompts moeten worden verfijnd, output moet worden beoordeeld en edge cases moeten expliciet worden afgevangen. Dit is geen eenmalige exercitie, maar een doorlopend proces. En precies daar ligt vaak de onderschatting.
Een van de belangrijkste lessen voor de klant was dat technologie slechts een deel van het verhaal is. Uiteindelijk moet de kennis in de organisatie zelf landen. Het IT team moet AI agents kunnen begrijpen, aanpassen en onderhouden.
Dat is extra uitdagend wanneer de organisatie werkt met enterprise platforms zoals Workato, MuleSoft, SAP of Power Automate. Deze omgevingen zijn robuust, maar ook complexer en trager om in te experimenteren. De skillset om AI agents hierin goed te ontwerpen is nog schaars.
Het ERP systeem hebben we bewust buiten scope gehouden. Tegelijkertijd is duidelijk dat daar op termijn ook kansen liggen, bijvoorbeeld richting helpdesk, sales, CMR en CRM modules. Maar dat vraagt een volgende stap en meer fundamentele keuzes.
Voor ons als Pantalytics bevestigde deze case een aantal dingen. Kleine, afgebakende experimenten geven al veel kennis over aan een IT en data team. Begin bij een concreet proces waar frictie zit. Werk samen met het team die het straks zelf moet dragen. En wees eerlijk over wat makkelijk is en wat structureel lastig blijft.
AI agents zijn geen plug-and-play oplossing. Ze vragen om technische volwassenheid, maar vooral om organisatorische bereidheid om anders te werken.
Ook hebben we geleerd dat een proof of concept heel iets anders is dan daadwerkelijke implementatie. In user stories het je altijd het volgende format: As a. < Role >... I want to ... < Feature >, so I can < The why >. Dit laatste stuk, de why, is voor een proof of concept minder relevant. Het gaat om leren en daarbij is veel leren over veel verschillende cases belangrijker dan iets tot 100% operationeel te krijgen.
De klant kan hier nu zelfstandig intern mee verder. De basiskennis is aanwezig en de eerste bouwstenen liggen er. Tegelijkertijd is ook duidelijk dat echte waardecreatie vraagt om verdere stappen. Er zal een duidelijke strategie moeten worden ontwikkeld.
Voor organisaties die echt de vruchten van AI agents willen plukken, zullen sommige basissystemen opnieuw moeten worden geëvalueerd. Juist daar kunnen gerichte experimenten helpen om die keuzes onderbouwd te maken.
Mocht je ook interesse hebben in een workshop en inzicht te verkrijgen in wat AI en moderne ERP voor jouw organisatie kan betekenen, dan ben ik bereikbaar op Rutger@Pantalytics.com