Стає цікавіше
Sep. 2nd, 2023 07:03 am![[personal profile]](https://www.dreamwidth.org/img/silk/identity/user.png)
Тут люди кинулись мірятись ШІ на задачі генерації коду.
І дуже оригінальний бенчмарк HumanEval - там для перевірки використовують юніт-тести, нарешті!
Шкода тільки що мало тестових тасків.
Ну звісно, GPT-4 навіть на стандартній базі вражає, аж 68%, а на тюненій аж 86%.
Тюнена ЛЛама2 дає до 48%.
Але якщо взяти загальнодоступну ЛЛама2, яку можна скачати, там біля 30%, але відчуйте різницю, цю штуку вже можна просто покласти в кишеню і використовувати без інтернету, а на GPT-4 треба ресурси величезні мати.
Зараз трошки почекати, я думаю ентузіасти зроблять оптимізовану опенсорц модель.
І ще, ходят чутки, що воно не заточене на Пітон, а набагато кращі результати демонструє на Javascript, Java.
І дуже оригінальний бенчмарк HumanEval - там для перевірки використовують юніт-тести, нарешті!
Шкода тільки що мало тестових тасків.
Ну звісно, GPT-4 навіть на стандартній базі вражає, аж 68%, а на тюненій аж 86%.
Тюнена ЛЛама2 дає до 48%.
Але якщо взяти загальнодоступну ЛЛама2, яку можна скачати, там біля 30%, але відчуйте різницю, цю штуку вже можна просто покласти в кишеню і використовувати без інтернету, а на GPT-4 треба ресурси величезні мати.
Зараз трошки почекати, я думаю ентузіасти зроблять оптимізовану опенсорц модель.
І ще, ходят чутки, що воно не заточене на Пітон, а набагато кращі результати демонструє на Javascript, Java.