Fra EPFL en ny multimodal model til mere fleksibel kunstig intelligens

Den kan lære af tekst, billeder, video og lyd, og takket være modularitet producerer den et hvilket som helst antal eller en kombination af forudsigelser

Machine Learning: en ny multimodal model til mere fleksibel kunstig intelligens fra EPFL
Fra EPFL en ny multimodal model til mere fleksibel kunstig intelligens (Foto: Brian Penny/Pixabay)

Uanset om vi taler om OpenAI eller ChatGPT, er langt de fleste chatbots generativ kunstig intelligens er baseret på de såkaldte Stor sprogmodel (LLM), modeller af dyb læring i stor skala trænet til at give svar på spørgsmål stillet til dem ved at lære information gennem store mængder tekst.

Den sidste grænse afGenerativ AI er jeg multimodale modeller, som kombinerer sprogforståelse og billeder, video og lyd for at tilbyde en endnu mere avanceret oplevelse og service.

Deres skabelse byder dog på flere udfordringer, især hvis hensigten er at bygge multimodale modeller i lille skala: den hyppige tilstedeværelse af manglende data på grund af manglende information, næsten altid på grund af delvis tilgængelighed af ressourcer.

Risikoen er kort sagt, at modellen lærer på baggrund af mangel, og at beregningerne og forudsigelserne forvrænges. Og det var her, EPFL startede med sit nye projekt.

Fra det tekniske universitet i Lausanne og Zürich en koalition for grøn energi
I 3D den teknologiske handske, der vil gøre Virtual Reality håndgribelig

Maskinelæring
Campus for Federal Polytechnic i Lausanne (Foto: Facebook/EFPL)

MultiModN, den modulære multimodale model født i Lausanne

Forskerne fra Federal Polytechnic i Lausanne (EPFL), et af de bedste universiteter i verden med hensyn til ingeniør- og informationsteknologi, har faktisk udviklet sig MultiModN, en unik modulær multimodal model for nylig præsenteret på NeurIPS2023.

Forskere fra laboratorierne Machine Learning for Education (ML4ED) og Machine Learning and Optimization (MLO) på EPFL's School of Computer Science and Communication besluttede at udvikle og teste det stik modsatte af et stort, men tænke i en mindre skala.

Ledet af læreren Mary-Anne Hartley, direktør for Laboratory for Global Intelligent Health Technologies, der er vært i fællesskab på MLO og Yale School of Medicine, og professor Tanja Käser, direktør for ML4ED, skabte holdet en multimodal model, der kan lære af tekst, billeder, videoer og lyde, men som i modsætning til eksisterende består af et variabelt antal mindre moduler, autonome og input-specifikke.

Sidstnævnte kan vælges baseret på tilgængelig information og derefter sættes sammen til en sekvens af et hvilket som helst tal, kombination eller type input. Det kan derfor producere et hvilket som helst antal eller kombination af forudsigelser.

"Vi evaluerede MultiModN i ti reelle aktiviteter, herunder støtte til medicinsk diagnose, forudsigelse af akademisk præstation og vejrudsigt,” forklarede han Vinitra Swamy, ph.d.-studerende ved ML4ED og MLO og første medforfatter på projektet.

"Gennem disse eksperimenter mener vi, at MultiModN er den første iboende fortolkelige og manglende data-resistente tilgang til multimodal modellering".

EPFLs "opskrift" på mere kraftfulde kvantecomputere
Fra kunstig intelligens et afgørende løft til kryptovalutaer?

Maskinelæring
EPFL School of Computer Science and Communication (Foto: Facebook/EPFL IC)

Den første use case: kliniske beslutninger for medicinsk personale

Den første use case af MultiModN vil være som et supportsystem til kliniske beslutninger for medicinsk personale i ressourcebegrænsede omgivelser.

I sundhedssektoren mangler der faktisk ofte kliniske data, måske på grund af begrænsede ressourcer (en patient har ikke råd til en specifik test) eller omvendt på grund af en overflod af ressourcer og information. MultiModN er i stand til at lære af disse data fra den virkelige verden uden at absorbere dens såkaldte biases og tilpasse forudsigelser til enhver kombination eller antal input.

"Manglende data er et kendetegn i ressourcebegrænsede sammenhænge, ​​og efterhånden som modeller lærer disse manglende mønstre, kan de indkode fejl i deres forudsigelser." påpegede han Mary-Anne Hartley.

"Behovet for fleksibilitet i forhold til uforudsigeligt tilgængelige ressourcer er det, der inspirerede MultiModN".

I en topbegivenhed virkningen af ​​AI og maskinlæring på tjenester
Alle årsagerne til AIs voksende indflydelse i digital kunst

Maskinelæring
Et analyselaboratorium (Foto: Michal Jarmoluk/Pixabay)

Fra laboratoriet til det virkelige liv: et forsøg på lungebetændelse og tuberkulose er i gang

Udgivelsen er dog kun det første skridt mod implementering og felttest. Professor Hartley arbejdede sammen med kolleger på Lausanne Universitetshospital (CHUV) og Inselspital, Universitetshospitalet i Bern, for at udføre kliniske undersøgelser fokuseret på diagnosticering af lungebetændelse og tuberkulose i ressourcebegrænsede omgivelser og er i gang med at rekruttere tusindvis af patienter Sydafrika, Tanzania, namibia e Benin.

Forskergrupperne gennemførte et omfattende uddannelsesinitiativ, undervisning mere end 100 læger at systematisk indsamle multimodale data inklusive ultralydsbilleder og videoer, så MultiModN kan trænes til at være følsom over for reelle data fra områder med lav ressource.

"Vi indsamler præcis den slags komplekse multimodale data, som MultiModN er designet til at håndtere", sagde lægen Noémie Boillat-Blanco, infektionssygdomsspecialist ved CHUV.

"Vi er glade for at se en model, der kan sætte pris på kompleksiteten af ​​manglende ressourcer i vores sammenhænge og den systematiske mangel på rutinemæssige kliniske vurderinger", tilføjede lægen Kristina Keitel af Inselspital, universitetshospitalet i den schweiziske hovedstad.

Sikkerheden ved AI? Bletchley Park-erklæringen er afgørende
Axel Springer-OpenAI akse for AI i journalistikkens tjeneste

EPFLs innovation er designet til at forbedre den kliniske beslutningstagning ved at give adgang til specialiseret medicinsk viden (Foto: Irwan/Unsplash)

Machine Learning til gavn for almenvellet

Udviklingen og træningen af ​​MultiModN repræsenterer fortsættelsen af ​​EPFLs bestræbelser på at tilpasse maskinlæringsværktøjer til virkeligheden og til offentlighedens bedste, og kommer kort efter lanceringen af Meditron, en kunstig intelligens-model specielt designet til den medicinske sektor.

Meditron hører også til kategorien Large Language Models (LLM), men i modsætning til generalistmodeller, som tjener en lang række opgaver, er den fokuseret på medicinsk felt, og er mere kompakt med hensyn til størrelse, men alligevel lige så effektiv.

Meditrons mål er at demokratisere adgangen til medicinsk information af høj kvalitet, hvilket hjælper med kliniske beslutninger.

EPFL-forskere udviklede to versioner med henholdsvis 7 milliarder og 70 milliarder parametre, og modellerne blev trænet på udvalgte medicinske datakilder af høj kvalitet, herunder peer-reviewed videnskabelig litteratur og forskellige kliniske retningslinjer, hvilket sikrede en bred og præcis videnbase.

Både Meditron, præsenteret i november 2023, og MultiModN er derfor i tråd med missionen for EPFLs nye AI Center, som fokuserer på, hvordan ansvarlig og effektiv kunstig intelligens kan fremme teknologisk innovation til gavn for alle samfundets sektorer.

De revolutionerende sensorer, der kan spare millioner af batterier
AI: krigen, der er ved at bryde ud, bliver ikke, som vi forventer...

Machine Learning: en ny multimodal model til mere fleksibel kunstig intelligens fra EPFL
Ydersiden af ​​EPFL-campus med logoet fra Federal Polytechnic of Lausanne (Foto: Facebook/EFPL IC)