Podlodka Podcast
Podlodka #433 – Как оцениваются LLM
- Author: Vários
- Narrator: Vários
- Publisher: Podcast
- Duration: 1:27:43
- More information
Informações:
Synopsis
Когда-то для оценки AI мы использовали только тест Тьюринга – человек общался с собеседником через чат, а потом пытался определить, кожаным или кремниевым был его собеседник. Сегодня мы видим, что оценка качества работы LLM – гораздо более сложная задача. Вместе с Пашей Чижовым из PleIAs мы закопались в то, как вообще сегодня оценивается AI, и обсудили все виды бенчмарков, арен, метрик, их врожденные недостатки, а заодно и как быть, когда по капоту вашего КАМАЗа ползет черт. Также ждем вас, ваши лайки, репосты и комменты в мессенджерах и соцсетях! Telegram-чат: https://t.me/podlodka Telegram-канал: https://t.me/podlodkanews Страница в Facebook: www.facebook.com/podlodkacast/ Twitter-аккаунт: https://twitter.com/PodcastPodlodka Ведущие в выпуске: Евгений Кателла, Егор Толстой Полезные ссылки: Бенчмарки https://huggingface.co/datasets/cais/mmlu https://huggingface.co/datasets/MMMU/MMMU https://huggingface.co/datasets/allenai/ai2_arc https://huggingface.co/datasets/Rowan/hellaswag https://huggingface.