IBM AI uchun Project CodeNet ma'lumotlar to'plamini yaratdi

Birlik IBM Sun'iy intellekt (AI) tadqiqoti dasturlash vazifalarida yordam beradigan mashinani o'rganish modellarini ishlab chiqish uchun 14 million namunadan iborat ma'lumotlar to'plamini taqdim etdi. Maʼlumotlar toʻplami nomi CodeNet loyihasi, o'z nomini kompyuter ko'rish va chuqur o'rganishni inqilob qilgan mashhur tasvirlar ombori ImageNetdan oladi.

Dasturchilar ongli va ongsiz fikrlashning ko'plab mexanizmlaridan foydalangan holda yangi muammolarni kashf etadilar va turli xil echimlarni o'rganadilar. Ko'pgina mashinalarni o'rganish algoritmlari bir xil muammolarni hal qila oladigan modellarni ishlab chiqish uchun aniq belgilangan vazifalar va katta hajmdagi izohli ma'lumotlarni talab qiladi.

IBM Project CodeNet — Project CodeNet - o'nlab dasturlash tillari bo'ylab tarqalgan ~ 14 million kod misollaridan iborat ulkan ma'lumotlar to'plami.

Ekspertlar hamjamiyati tomonidan AI-kod tizimlarini ishlab chiqish va baholash uchun ma'lumotlar to'plami va mezonlarini yaratish uchun ko'p kuch sarflandi. Ammo, dasturiy ta'minotni ishlab chiqishning ijodiy va ochiq tabiatini hisobga olgan holda, dasturlash uchun mukammal ma'lumotlar to'plamini yaratish juda qiyin. Project CodeNet yordamida IBM tadqiqotchilari turli vazifalarda mashinani o'rganish modellarini o'rgatish uchun ishlatilishi mumkin bo'lgan ko'p maqsadli ma'lumotlar to'plamini yaratishga harakat qilishdi. CodeNet yaratuvchilari uni "kod uchun AIda algoritmik yutuqlarni tezlashtirish uchun juda keng ko'lamli, xilma-xil va yuqori sifatli ma'lumotlar to'plami" deb ta'riflaydilar.

Ma'lumotlar to'plami 14 xil dasturlash tillarida yozilgan 500 million qator kodlarning 55 million misollarini o'z ichiga oladi. Kod namunalari AIZU va AtCoder onlayn kodlash platformalarida joylashtirilgan 4000 ga yaqin topshirilgan topshiriqlardan olingan. Kod misollari berilgan topshiriqlarga to'g'ri va noto'g'ri javoblarni o'z ichiga oladi.

Shuningdek, qiziqarli:

CodeNet-ning asosiy xususiyatlaridan biri bu misollarga qo'shilgan izohlar miqdori. Ma'lumotlar to'plamiga kiritilgan har bir kodlash vazifasi matn tavsifiga, shuningdek, CPU vaqti va xotira chegaralariga ega. Har bir kodni yuborish til, taqdim etilgan sana, o'lcham, bajarilish vaqti, qabul qilish va xato turlarini o'z ichiga olgan o'nlab ma'lumotlarni o'z ichiga oladi. IBM tadqiqotchilari, shuningdek, ma'lumotlar to'plami turli parametrlar, jumladan, dasturlash tili, maqbullik va xato turlari bo'yicha muvozanatli bo'lishini ta'minlash uchun juda ko'p harakat qilishdi.

IBM Project CodeNet

CodeNet dasturlash vazifalari bo'yicha mashinani o'rganish modellarini o'rgatish uchun yagona ma'lumotlar to'plami emas. Ammo uni ajratib turadigan bir nechta xususiyatlar mavjud. Birinchisi, ma'lumotlar to'plamining katta hajmi, jumladan, namunalar soni va tillarning xilma-xilligi. Lekin, ehtimol, kod namunalari bilan birga keladigan metadata muhimroqdir. CodeNet-ga qo'shilgan boy izohlar uni muayyan dasturlash vazifalariga ixtisoslashgan boshqa kodlash ma'lumotlar to'plamidan farqli o'laroq, turli xil vazifalar to'plamiga moslashtiradi.

Bu aqldan ozish.

GPT-3 yordamida men xohlagan tartibni tasvirlaydigan va siz uchun JSX kodini ishlab chiqaradigan maket generatorini qurdim.

NIMA rasmtwitter.com/w8JkrZO4lk

- Sharif Shameem (@sharifshameem) Iyul 13, 2020

CodeNet-dan foydalanishning bir necha yo'li mavjud. Ulardan biri til tarjimasi. Ma'lumotlar to'plamidagi har bir kodlash vazifasi turli dasturlash tillarining ko'rinishlarini o'z ichiga olganligi sababli, ma'lumotlar olimlari undan kodni bir tildan boshqasiga tarjima qiladigan mashinani o'rganish modellarini yaratish uchun foydalanishlari mumkin. Bu eski kodni yangi tillarga o'tkazishni va ularni dasturchilarning yangi avlodlari uchun ochiq qilishni xohlaydigan tashkilotlar uchun qulay bo'lishi mumkin.

Shuningdek o'qing:

Manbadiagramma tahlili

Ro'yxatdan o'tish

2 Izoh

Yangilari

Kattalar Eng mashhur

O'rnatilgan sharhlar

Barcha sharhlarni ko'ring

Viktor

2 yil oldin

An'ana va irsiyat turli xil fikrlash, eng yosh avlodlar uchun neyronga o'xshash algoritmlar va muammolarni qo'yish, bir-birini yaxshilaydigan ML usullari bilan birga o'ynashi kerak.

0

Javob bering

Aasd

2 yil oldin

Vaqt o'tishi bilan dasturchilarning saviyasi yanada pasayadi (hozirgiga nisbatan). Ya'ni, qiyshiq, qiyshiq kodni "bo'g'iz tilida" yozish mumkin bo'ladi. Va keyin mashina optimallashtiriladi va siz oxir-oqibat professional assembler dasturchisining optimallashtirilgan kodini olishingiz mumkin bo'ladi (yoki undan ham yaxshiroq).

0

Javob bering

Boshqa maqolalar

IBM Project CodeNet ma'lumotlar to'plamini yaratdi: 14 million kod namunalari AIni dasturlashni o'rgatadi

Oxirgi izohlar