Дослідницька організація EleutherAI представила Common Pile v0.1 – один із найбільших наборів ліцензованого та відкритого тексту для навчання ШІ. Новий датасет обсягом 8 терабайт став результатом майже дворічної співпраці з Poolside, Hugging Face та академічними установами, зокрема Університетом Торонто.
Що відомо про Common Pile v0.1
Common Pile було зібрано на основі джерел суспільного надбання – 300 000 оцифрованих книг із Бібліотеки Конгресу та Інтернет-архіву, а також аудіоконтенту, транскрибованого через OpenAI Whisper. Цей підхід дозволив створити етичну альтернативу іншим популярним датасетам, що містять матеріали, захищені авторським правом.
Використовуючи Common Pile, EleutherAI навчила дві нові моделі – Comma v0.1-1T і Comma v0.1-2T, кожна з яких має 7 мільярдів параметрів. Вони, за словами організації, показують результати, співставні з моделями від Meta та інших компаній, які використовують спірні джерела даних.
На фоні судових позовів проти таких гігантів, як OpenAI, EleutherAI підкреслює важливість прозорості та правової чистоти у створенні ШІ. За словами виконавчої директорки Стелли Бідерман, юридичний тиск суттєво вплинув на відкритість досліджень у сфері ШІ, однак не змінив методи збору даних.
Common Pile v0.1 доступний для завантаження на платформах Hugging Face і GitHub.