order @order

**clacke: exhausted pixie dream boy** @clacke@libranet.de · Jan 30 *

**AlexCrimi** @AlexCrimi@mstdn.social · Dec 19, 2024

Dec 19, 2024

Survey: Multimodal #LLMs like GPT-4V are redefining AI by excelling at tasks like image-based storytelling & OCR-free math reasoning, hinting at AGI potential. This paper reviews their progress, architectures, and challenges while exploring new horizons for research. #AI #MLLM

Replied in thread

**Stefan Müller** @stefanmuelller@climatejustice.social · Nov 9, 2024

Nov 9, 2024

Stefan Müller @stefanmuelller@climatejustice.social

@peer Dann wäre das #LLM ein Multimodal Large Language Model (#MLLM). Genau das ist der Punkt: Wenn Du in einem Raum sitzt, in dem chinesisches Radio läuft, lernst Du nicht Chinesisch. Ein LLM schon. Es lernt ganz anders als wir. Es lernt nur die Distribution von Sprachteilen. Wir lernen mit Grounding. Das wird in der KI auch kommen, aber jetzt ist es noch nicht so weit und deshalb sind die LLMs noch nicht der Beweis, dass Chomsky falsch lag, aber 1) wussten wir das schon vor den LLMs und 2) machen die LLMs das auch für Laien und hardcore Chomskyaner (die vorher einfach die Literatur nicht gelesen hatten) plausibel.

Recent searches

Search options

Administered by:

Server stats:

#mllm