Новини Технології 24.03.2025 о 17:26 comment views icon

Сайт дозволяє знайти книги, які «зпіратила» Meta для навчання ШІ Llama

author avatar

Андрій Русанов

Автор сайту

Сайт дозволяє знайти книги, які «зпіратила» Meta для навчання ШІ Llama
Depositphotos
Розділ Технології виходить за підтримки

У січні 2025 року, протягом судового процесу з’ясувалося, що Meta Марка Цукерберга для навчання ШІ Llama незаконно використала мільйони книг. Тепер можна знайти, які конкретно.

Великі мовні моделі ШІ потребують величезних наборів текстових даних для навчання та відтворення точної відповідності слів у мові. Насправді легальні оригінальні матеріали для штучного інтелекту стає важко знайти.

«У нас буквально закінчується текст у Всесвіті, на якому можна навчати ці системи», — сказав вчений-інформатик Стюарт Рассел ще у 2023 році

Meta, материнська компанія Facebook та Instagram, вимушено відкрила завісу з того, як це робиться насправді. Судова справа виявила той факт, що Meta незаконно завантажила відому піратську бібліотеку LibGen, щоб отримати мільйони захищених законом текстів. Після того, програмісти отримали схвалення особисто від Цукерберга, книги нелегально були передані для навчання LLM. Так, одна з найбільших компаній у світі не заплатила за жодну копію цих книг.

Сайт The Atlantic створив пошукову систему, яка дозволяє виявити у файлах LibGen, які саме книги були використані Meta. Йдеться про надзвичайно великий обсяг даних, які охоплюють понад 7,5 млн книг, близько 81 млн наукових робіт, а також інші твори.

Позов очолювали автори Та-Нехісі Коутс і Сара Сільверман, які мали уявлення про піратство даних в Meta завдяки попередньому позову 2023 року. Новий інструмент пошуку дозволяє письменникам та науковцям побачити, яка саме робота була «зпірачена» корпорацією для навчання комерційного ШІ.

«Моя книга тут — і це добре! LibGen робить тексти доступними для людей, які інакше не мали б доступу. Проблема полягає не в тому, що LibGen робить контент доступним безплатно, а в тому, що Meta краде цей матеріал заради прибутку», — каже автор Wired Джастін Лінг.

Остаточне рішення у процесі, що триває, очікується не раніше літа. Тим часом Llama працює та вільний на таких платформах, як Facebook, Instagram і WhatsApp. Це не єдиний подібний процес проти великої корпорації: рік тому автори позивалися до NVIDIA.

Джерело: Futurism

Розділ Технології виходить за підтримки

Favbet Tech – це ІТ-компанія зі 100% украі‌нською ДНК, що створює досконалі сервіси для iGaming і Betting з використанням передових технологіи‌ та надає доступ до них. Favbet Tech розробляє інноваційне програмне забезпечення через складну багатокомпонентну платформу, яка здатна витримувати величезні навантаження та створювати унікальний досвід для гравців.


Що думаєте про цю статтю?
Голосів:
Файно є
Файно є
Йой, най буде!
Йой, най буде!
Трясця!
Трясця!
Ну такої...
Ну такої...
Бісить, аж тіпає!
Бісить, аж тіпає!
Loading comments...

Повідомити про помилку

Текст, який буде надіслано нашим редакторам: