Від EPFL нова мультимодальна модель для більш гнучкого ШІ

Він може вивчати текст, зображення, відео та звук і, завдяки модульності, створює будь-яку кількість або комбінацію прогнозів

Машинне навчання: нова мультимодальна модель для більш гнучкого ШІ від EPFL
Від EPFL нова мультимодальна модель для більш гнучкого ШІ (Фото: Brian Penny/Pixabay)

Незалежно від того, чи ми говоримо про OpenAI чи ChatGPT, переважна більшість чат-ботів генеративний штучний інтелект базуються на т. зв Велика мовна модель (LLM), моделі в глибоке навчання у великому масштабі навчені давати відповіді на запитання, поставлені перед ними шляхом вивчення інформації через великі обсяги тексту.

Останній рубіж сГенеративний ШІ є i мультимодальні моделі, які поєднують розуміння мови та зображення, відео та аудіо, щоб запропонувати ще більш просунутий досвід і послуги.

Їхнє створення, однак, представляє кілька проблем, особливо якщо наміром є створення мультимодальних моделей у невеликих масштабах: часті наявність відсутніх даних через недоступність інформації, майже завжди через часткову доступність ресурсів.

Коротше кажучи, ризик полягає в тому, що модель навчається на основі недоліку, а розрахунки та прогнози спотворюються. І саме тут EPFL розпочав свій новий проект.

Від Технічного університету Лозанни та Цюріха коаліція за зелену енергію
У 3D — технологічна рукавичка, яка зробить віртуальну реальність відчутною

машинне навчання
Кампус Федеральної політехніки в Лозанні (Фото: Facebook/EFPL)

MultiModN, модульна мультимодальна модель, народжена в Лозанні

Дослідники Федеральна політехніка Лозанни (EPFL), один із найкращих університетів світу з точки зору техніки та інформаційних технологій, фактично розвинулися MultiModN, унікальна модульна мультимодальна модель, нещодавно представлена ​​на NeurIPS2023.

Дослідники з лабораторій Machine Learning for Education (ML4ED) і Machine Learning and Optimization (MLO) у Школі комп’ютерних наук і комунікацій EPFL вирішили розробити та перевірити повну протилежність великому, але мислити в меншому масштабі.

На чолі з учителем Мері-Енн Гартлі, директор лабораторії глобальних інтелектуальних технологій охорони здоров’я, організованої спільно в MLO та Єльській школі медицини, і професор Таня Кесер, директора ML4ED, команда створила мультимодальну модель, яка може вивчати текст, зображення, відео та звуки, але яка, на відміну від існуючих, складається з змінна кількість менших модулів, автономні та залежні від входу.

Останній можна вибрати на основі наявної інформації, а потім об’єднати в послідовність будь-якої кількості, комбінації або типу введення. Тому він може створити будь-яку кількість або комбінацію прогнозів.

"Ми оцінили MultiModN в десять реальних видів діяльності, включно з підтримкою медичної діагностики, прогнозування академічної успішності та прогнозування погоди», пояснив Вінітра Свамі, докторант ML4ED та MLO та перший співавтор проекту.

«Завдяки цим експериментам ми переконані, що MultiModN є першим підходом до мультимодального моделювання, який внутрішньо інтерпретується та стійкий до відсутності даних.».

«Рецепт» EPFL для більш потужних квантових комп’ютерів
Від штучного інтелекту вирішальний поштовх до криптовалют?

машинне навчання
Школа інформатики та комунікації EPFL (Фото: Facebook/EPFL IC)

Перший варіант використання: клінічні рішення для медичного персоналу

Перший варіант використання MultiModN буде як система підтримки для клінічні рішення для медичного персоналу в умовах обмежених ресурсів.

Насправді в секторі охорони здоров’я клінічні дані часто відсутні, можливо, через обмежені ресурси (пацієнт не може дозволити собі певний тест) або, навпаки, через велику кількість ресурсів та інформації. MultiModN здатний навчатися на цих реальних даних, не поглинаючи їх так звані зміщення, і адаптувати прогнози до будь-якої комбінації чи кількості вхідних даних.

"Відсутність даних є відмінною рисою в контекстах з обмеженими ресурсами, і коли моделі вивчають ці відсутні шаблони, вони можуть кодувати помилки у своїх прогнозах», — підкреслив він Мері-Енн Гартлі.

«Потреба в гнучкості перед обличчям непередбачувано доступних ресурсів – це те, що надихнуло MultiModN».

У головній події вплив ШІ та машинного навчання на послуги
Усі причини зростання впливу ШІ в цифровому мистецтві

машинне навчання
Аналітична лабораторія (Фото: Michal Jarmoluk/Pixabay)

Від лабораторії до реальності: триває суд над пневмонією та туберкульозом

Публікація, однак, є лише першим кроком до впровадження та польового тестування. Професор Гартлі працював із колегами з університетської лікарні Лозанни (CHUV) та Inselspital, університетської лікарні Берна, щоб провести клінічні дослідження зосереджено на діагностиці пневмонії та туберкульозу в умовах обмежених ресурсів і зараз набирає тисячі пацієнтів ПАР, Танзанія, Намібія e Бенін.

Дослідницькі групи взяли на себе широку ініціативу навчання, навчання понад 100 лікарів для систематичного збору мультимодальних даних, включаючи ультразвукові зображення та відео, щоб MultiModN можна було навчити бути чутливим до реальних даних з регіонів з низьким рівнем ресурсів.

«Ми збираємо саме той вид складних мультимодальних даних, для обробки яких створено MultiModN», - сказав лікар Ноемі Буйя-Бланко, інфекціоніст ЧУВ.

«Ми раді бачити модель, яка зможе оцінити складність відсутніх ресурсів у наших умовах і систематична відсутність рутинних клінічних оцінок", – додав лікар Крістіна Кейтель Inselspital, університетської лікарні в столиці Швейцарії.

Безпека ШІ? Заява щодо Блетчлі-Парку має вирішальне значення
Вісь Axel Springer-OpenAI для ШІ на службі журналістики

Інновація EPFL розроблена для покращення прийняття клінічних рішень шляхом надання доступу до спеціальних медичних знань (Фото: Irwan/Unsplash)

Машинне навчання на службі суспільного блага

Розробка та навчання MultiModN є продовженням зусиль EPFL щодо адаптації інструментів машинного навчання до реальності та для суспільного блага, і відбувається незабаром після запуску Медітрон, модель штучного інтелекту, спеціально розроблена для медичного сектору.

Meditron також належить до категорії Large Language Models (LLM), але на відміну від загальних моделей, які служать широкому колу завдань, він зосереджений на медична сфера, компактніший за розміром, але однаково ефективний.

Метою Медітрону є демократизувати доступ до медичної інформації високої якості, що сприяє прийняттю клінічних рішень.

Дослідники EPFL розробили дві версії з 7 мільярдами та 70 мільярдами параметрів відповідно, і моделі були навчені на вибраних високоякісних джерелах медичних даних, включаючи рецензовану наукову літературу та різні клінічні рекомендації, забезпечуючи широку та точну базу знань.

Таким чином, і Meditron, представлений у листопаді 2023 року, і MultiModN відповідають місії нового Центру штучного інтелекту EPFL, який зосереджується на тому, як відповідальний та ефективний штучний інтелект може сприяти технологічним інноваціям на благо всіх секторів суспільства.

Революційні датчики, які можуть заощадити мільйони батарейок
ШІ: війна, яка ось-ось вибухне, буде не такою, як ми очікуємо…

Машинне навчання: нова мультимодальна модель для більш гнучкого ШІ від EPFL
Зовнішній вигляд кампусу EPFL з логотипом Федеральної політехніки Лозанни (Фото: Facebook/EFPL IC)