Ein Bild sagt mehr als tausend Worte. Wie profitieren Chatbots von Multimodalität Engineering Camp 2025

Ein Bild sagt mehr als tausend Worte. Wie profitieren Chatbots von Multimodalität
.ical
13.05.2025 15:45–16:05, Konferenz 2

Für Menschen sind Bilder oft ein guter Weg, um komplexe Zusammenhänge einfacher zu verstehen. Maschinen – insbesondere LLMs – bevorzugen hingegen textbasierten Input, auch wenn neuere Modelle mit multimodalen Fähigkeiten werben. Doch was passiert, wenn man einem LLM nur Informationen gibt, die für Menschen gedacht sind – also eine Mischung aus Texten und Bildern?

In diesem Talk wird gezeigt, wie ein einfacher Slack-Chatbot auf Basis von Google Gemini entwickelt werden kann. Er nutzt Daten aus Confluence, um Fragen zur QAware zu beantworten. Außerdem wird untersucht, wie sich sein Verhalten verändert, wenn er neben dem Text der Seiten auch Zugriff auf die Bilder erhält.

Robin Schlösser

Ein Bild sagt mehr als tausend Worte. Wie profitieren Chatbots von Multimodalität .ical 13.05.2025 15:45–16:05, Konferenz 2

Ein Bild sagt mehr als tausend Worte. Wie profitieren Chatbots von Multimodalität
.ical
13.05.2025 15:45–16:05, Konferenz 2