[personal profile] zyxman
Тут люди кинулись мірятись ШІ на задачі генерації коду.

І дуже оригінальний бенчмарк HumanEval - там для перевірки використовують юніт-тести, нарешті!

Шкода тільки що мало тестових тасків.

Ну звісно, GPT-4 навіть на стандартній базі вражає, аж 68%, а на тюненій аж 86%.

Тюнена ЛЛама2 дає до 48%.

Але якщо взяти загальнодоступну ЛЛама2, яку можна скачати, там біля 30%, але відчуйте різницю, цю штуку вже можна просто покласти в кишеню і використовувати без інтернету, а на GPT-4 треба ресурси величезні мати.

Зараз трошки почекати, я думаю ентузіасти зроблять оптимізовану опенсорц модель.

І ще, ходят чутки, що воно не заточене на Пітон, а набагато кращі результати демонструє на Javascript, Java.
This account has disabled anonymous posting.
If you don't have an account you can create one now.
HTML doesn't work in the subject.
More info about formatting

Profile

zyxman

December 2023

S M T W T F S
     12
3456789
10111213141516
1718 1920212223
24252627282930
31      

Style Credit

Expand Cut Tags

No cut tags
Page generated Jun. 15th, 2025 04:47 pm
Powered by Dreamwidth Studios
OSZAR »