EleutherAI презентує найбільший відкритий набір даних для ШІ

Дослідницька організація EleutherAI представила Common Pile v0.1 – один із найбільших наборів ліцензованого та відкритого тексту для навчання ШІ. Новий датасет обсягом 8 терабайт став результатом майже дворічної співпраці з Poolside, Hugging Face та академічними установами, зокрема Університетом Торонто.

Що відомо про Common Pile v0.1

Common Pile було зібрано на основі джерел суспільного надбання – 300 000 оцифрованих книг із Бібліотеки Конгресу та Інтернет-архіву, а також аудіоконтенту, транскрибованого через OpenAI Whisper. Цей підхід дозволив створити етичну альтернативу іншим популярним датасетам, що містять матеріали, захищені авторським правом.

Використовуючи Common Pile, EleutherAI навчила дві нові моделі – Comma v0.1-1T і Comma v0.1-2T, кожна з яких має 7 мільярдів параметрів. Вони, за словами організації, показують результати, співставні з моделями від Meta та інших компаній, які використовують спірні джерела даних.

На фоні судових позовів проти таких гігантів, як OpenAI, EleutherAI підкреслює важливість прозорості та правової чистоти у створенні ШІ. За словами виконавчої директорки Стелли Бідерман, юридичний тиск суттєво вплинув на відкритість досліджень у сфері ШІ, однак не змінив методи збору даних.

Common Pile v0.1 доступний для завантаження на платформах Hugging Face і GitHub.

Може вам сподобатись

Що відомо про Common Pile v0.1

Може вам сподобатись

S.T.A.L.K.E.R. 2 готується підкорити PS5

Amazon скорочує кілька сотень робочих місць у сфері хмарних технологій

Qunnect залучає $10 мільйонів для розвитку квантових мереж у дата-центрах

Google нібито поєднує Chrome OS та Android в один єдиний платформу

Meta запроваджує революційне використання штучного інтелекту для створення персоналізованих рекламних оголошень

Peloton зосереджується на стратегії комплексного добробуту для подовження здоров’я