zyxman

Тут люди кинулись мірятись ШІ на задачі генерації коду.

І дуже оригінальний бенчмарк HumanEval - там для перевірки використовують юніт-тести, нарешті!

Шкода тільки що мало тестових тасків.

Ну звісно, GPT-4 навіть на стандартній базі вражає, аж 68%, а на тюненій аж 86%.

Тюнена ЛЛама2 дає до 48%.

Але якщо взяти загальнодоступну ЛЛама2, яку можна скачати, там біля 30%, але відчуйте різницю, цю штуку вже можна просто покласти в кишеню і використовувати без інтернету, а на GPT-4 треба ресурси величезні мати.

Зараз трошки почекати, я думаю ентузіасти зроблять оптимізовану опенсорц модель.

І ще, ходят чутки, що воно не заточене на Пітон, а набагато кращі результати демонструє на Javascript, Java.

S	M	T	W	T	F	S
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30
31

Стає цікавіше (Reply)

Стає цікавіше

Profile

December 2023

Most Popular Tags

Style Credit

Expand Cut Tags