Ein Bild sagt mehr als tausend Worte. Wie profitieren Chatbots von Multimodalität
13.05.2025 , Konferenz 2

Für Menschen sind Bilder oft ein guter Weg, um komplexe Zusammenhänge einfacher zu verstehen. Maschinen – insbesondere LLMs – bevorzugen hingegen textbasierten Input, auch wenn neuere Modelle mit multimodalen Fähigkeiten werben. Doch was passiert, wenn man einem LLM nur Informationen gibt, die für Menschen gedacht sind – also eine Mischung aus Texten und Bildern?

In diesem Talk wird gezeigt, wie ein einfacher Slack-Chatbot auf Basis von Google Gemini entwickelt werden kann. Er nutzt Daten aus Confluence, um Fragen zur QAware zu beantworten. Außerdem wird untersucht, wie sich sein Verhalten verändert, wenn er neben dem Text der Seiten auch Zugriff auf die Bilder erhält.