Meta ImageBind AI inson idrokiga taqlid qilishi mumkin

Meta kodni ochiq kirish sun'iy intellektda nomi ostida nashr etadi ImageBind, bu odamlar o'zlarining atrof-muhitini qanday qabul qilishlari yoki tasavvur qilishlariga o'xshash ma'lumotlar o'rtasidagi munosabatlarni bashorat qiladi. Midjourney, Stable Diffusion va DALL-E 2 kabi tasvir generatorlari so‘zlarni tasvirlarga bog‘lab, faqat matnli tavsif asosida vizual sahnalarni yaratishga imkon bersa-da, ImageBind bundan ham oshib ketadi. U matn, tasvir yoki video, audio, 3D o‘lchovlari, harorat ma’lumotlari va harakat ma’lumotlarini bog‘lashi mumkin va buni har qanday imkoniyatda oldindan tayyorgarlikdan o‘tmasdan amalga oshiradi. Bu matn taklifi, rasm yoki audio (yoki ularning kombinatsiyasi) kabi oddiy kirishlardan murakkab muhitlarni yaratishga qodir bo'lgan ramkaning dastlabki bosqichidir.

ImageBind-ni mashinani o'rganishning inson o'rganishiga yaqinlashishi deb o'ylashingiz mumkin. Misol uchun, agar siz gavjum shahar ko'chasi kabi dinamik muhitda tursangiz, miyangiz (asosan ongsiz ravishda) o'tayotgan mashinalar, baland binolar, ob-havo va boshqalar haqida ma'lumot olish uchun diqqatga sazovor joylar, tovushlar va boshqa sensorli hislarni o'zlashtiradi. . Odamlar va boshqa hayvonlar bizning genetik afzalliklarimiz uchun bu ma'lumotlarni qayta ishlash uchun rivojlangan: omon qolish va DNKni o'tkazish. (Atrofingiz haqida qanchalik ko'p bilsangiz, shunchalik ko'p xavf-xatarlardan qochishingiz va omon qolish va rivojlanish uchun atrof-muhitga moslashishingiz mumkin). Kompyuterlar hayvonlarning multisensorli aloqalarini taqlid qilishga yaqinlashar ekan, ular ushbu ulanishlardan faqat cheklangan ma'lumotlarga asoslangan to'liq amalga oshirilgan sahnalarni yaratish uchun foydalanishlari mumkin.

Shunday qilib, siz Midjourney-dan "plyaj to'pi ustida muvozanatni saqlayotgan Gandalf kostyumidagi basset itini" yaratish va o'sha g'alati sahnaning nisbatan real suratini olish uchun foydalanishingiz mumkin bo'lsa-da, ImageBind kabi multimodal AI vositasi it bilan tegishli videoni yaratishi mumkin. tovushlar, jumladan, batafsil yashash xonasi, xona harorati va itning aniq joylashuvi va voqea joyidagi boshqalar. "Bu statik tasvirlardan animatsiyalarni audio ko'rsatmalar bilan birlashtirib yaratish uchun ajoyib imkoniyat yaratadi", deb ta'kidlaydi Meta tadqiqotchilari o'zlarining ishlab chiquvchilarga yo'naltirilgan blogida. "Masalan, ijodkor tasvirni uyg'otuvchi soat va qichqirayotgan xo'roz bilan birlashtirib, soatni segmentlarga bo'lish va ikkalasini ham video ketma-ketlikda jonlantirish uchun xo'rozni yoki budilnikning ovozini segmentlarga ajratish uchun audio signaldan foydalanishi mumkin."

Ushbu yangi o'yinchoq bilan yana nima qilish mumkinligiga kelsak, u Meta-ning asosiy ambitsiyalaridan biriga ishora qiladi: VR, aralash haqiqat va metaspace. Misol uchun, to'liq amalga oshirilgan 3D sahnalarni (tovush, harakat va boshqalar bilan) tezda qura oladigan kelajakdagi minigarniturani tasavvur qiling. Yoki virtual o'yin ishlab chiquvchilari oxir-oqibat dizayn jarayonida mashaqqatli ishning muhim qismini tejash uchun undan foydalanishlari mumkin. Xuddi shunday, kontent yaratuvchilari faqat matn, tasvir yoki audioga asoslangan real saundtreklar va harakatga ega immersiv videolarni yaratishi mumkin. ImageBind kabi vosita ko‘rish yoki eshitish qobiliyati zaif odamlarga o‘z atrofini yaxshiroq tushunishga yordam berish uchun real vaqt rejimida multimedia tavsiflarini yaratish orqali qanday qilib kirish uchun yangi eshiklarni ochishini tasavvur qilish ham oson.

Shuningdek, qiziqarli: Sun'iy intellektga asoslangan eng yaxshi vositalar

"Odatda AI tizimlarida har bir tegishli modallik uchun ma'lum bir joylashtirish (ya'ni, ma'lumotlar va ularning mashina o'rganishdagi munosabatlarini aks ettira oladigan raqamlar vektorlari) mavjud", deydi Meta. “ImageBind shuni ko'rsatadiki, har bir alohida modal kombinatsiyasi bilan ma'lumotlarga o'rgatmasdan turib, bir nechta modalliklar uchun umumiy joylashtirish maydonini yaratish mumkin. Bu juda muhim, chunki tadqiqotchilar, masalan, gavjum shahar ko'chasidagi audio ma'lumotlar va issiqlik ma'lumotlari yoki chuqurlik ma'lumotlari va dengiz qirg'og'idagi jarlikning matn tavsifini o'z ichiga olgan namunalar bilan ma'lumotlar to'plamini yarata olmaydi.

Metaning fikricha, bu texnologiya oxir-oqibat hozirgi oltita “sezgi”dan tashqariga chiqadi. "Biz hozirgi tadqiqotimizda oltita usulni o'rgangan bo'lsak-da, teginish, nutq, hid va fMRI miya signallari kabi iloji boricha ko'proq his-tuyg'ularni bog'laydigan yangi usullarni joriy etish insonga yo'naltirilgan AI modellarini yanada boyitishga imkon beradi deb ishonamiz." Ushbu yangi sinov muhitini o'rganishga qiziqqan dasturchilar Meta-ning ochiq manba kodiga sho'ng'ishdan boshlashlari mumkin.

Shuningdek o'qing:

ManbaEngadget

Ro'yxatdan o'tish

0 Izoh

O'rnatilgan sharhlar

Barcha sharhlarni ko'ring

Boshqa maqolalar

Meta ImageBind AI inson idrokiga taqlid qilishi mumkin

Oxirgi izohlar