(no subject)
Nov. 25th, 2023 03:05 amНасколько я понял из той научно-популярщины которую я прослушал, дальнейшее развитие ИИ не может и не будет идти теми темпами что оно шло до сейчас.
Причина та же самая что у всех технологических кризисов - заканчиваются легкодоступные ресурсы.
Фактически ИИ скормили всю хорошо структурированную и качественную информацию, которая было в свободном доступе.
И дальше, если пытаться улучшать модели за счет тренировки, нужно либо переходить к тяжелой и грязной информации из "нижнего интернета", либо искать совершенно новые ее источники.
В любом случае "легкая руда" уже добыта, и второго такого же быстрого и простого этапа впереди не ожидается.
no subject
Date: 2023-11-25 03:47 am (UTC)Это не просто не так. Это совсем не так. Само по себе интересно, кто распространяет этот тезис.
ИИ скормили лишь небольшой кусочек некопирайтной информации. Мизерную долю книг(доли процента от написанных опять таки по копирайтным соображениям). Большинство классических копирайтных произведений он похоже не читал до сих пор. Это даже видно по его ответам.
Что будет когда ему скормят более менее всё накопленное человечеством не знает никто.
no subject
Date: 2023-11-25 11:08 am (UTC)Удивлен. По поводу текстовой информации сказать не могу, но то что в плане графики ИИ кормили всеми картинками, включая произведения вполне живых и действующих художников — совершенно точно. Порукой этому многочисленные попытки судится.
no subject
Date: 2023-11-25 10:11 pm (UTC)https://sysblok.ru/linguistics/kak-rabotaet-gpt-3-samaja-prodvinutaja-jazykovaja-model/
Обучающие данные
Размеры модели значительно увеличились за счет набора данных Common Crawl — это веб-архив, собранный с 2011 года и состоящий из почти триллиона слов. Чтобы улучшить среднее качество наборов данных, разработчики сделали следующее:
отфильтровали версию CommonCrawl на основе сходства с рядом высококачественных эталонных корпусов;
выполнили нечеткую дедубликацию на уровне документа (внутри) и между наборами данных, чтобы предотвратить избыточность и сохранить целостность валидационного набора данных, применяемого для оценки переобучения;
для разнообразия добавили известные высококачественные эталонные корпуса в набор тренировочных данных: WebText, содержащий тексты с сайтов, страницы которых были отмечены пользователями, как полезные по контенту; корпуса книг Books1 и Books2; англоязычную Википедию.
no subject
Date: 2023-11-25 10:25 pm (UTC)Тексты с сайтов — настолько широкое понятие что туда легко могло войти что угодно.
no subject
Date: 2023-11-25 11:03 pm (UTC)no subject
Date: 2023-11-25 05:56 am (UTC)Чего-то быстро кончились структурированные знания. Все книги прочитаны? Весь Интернет изучен? Чего-то не верится. Судя, как минимум, по переводческим программам, это явно не так.
И потом, ИИ может обучаться также, как наш с вами "И" — на основе собственной практики. Шахматные программы могут наращивать свою квалификацию, играя друг с другом. ИИ, управляющий автомобилем, может наращивать свою квалификацию, управляя автомобилем на практике. И т.д.
no subject
Date: 2023-11-25 06:57 am (UTC)Думаю, нас ожидает еще не один скачок. Ведь известно, что человек учится, используя гораздо меньший объем информации, чем сейчас расходуется на обучение нейронок. И вычислительная мощность у него намного меньше. А результаты достигаются гораздо лучшие. Так что еще есть куда расти. Хотя нынешний подход с большими лингвистическими моделями видимо, уже уперся в предел.
no subject
Date: 2023-11-25 10:23 pm (UTC)Какой предел. Там еще можно масштабировать по нескольку порядков чуть ли не в каждой характеристике современной ЛЛМ
1) размер сети с сотен миллиардов на сотни триллионов и даже дальше
2) размер обучающей выборки — этим системам скормили хорошо если 0.1% накопленной человечеством информации.
3) размер окна контекста — его уже за год увеличили более чем на порядок до 100К и в принципе есть предложения как его делать по сути неограниченным.
И это если не брать во внимание уже придуманные и будущие алгоритмы по оптимизации работы трансформер сетей.
no subject
Date: 2023-11-26 07:10 am (UTC)Увеличивать модель дальше не имеет смысла. Нет столько данных для обучения, чтобы эта разница в масштабах сыграла.
Большая часть накопленной человечеством информации — это белый шум и бред. Теодор Старджон говорил что 90% всего опубликованного — дерьмо. Но он это говорил про опубликованное. Т.е. отобранное редакторами и ими же вычитанное. В современном интернете куда пишут без редактуры и цензуры дерьма как раз примерно 99.9%.
no subject
Date: 2023-11-26 12:39 pm (UTC)Ну, да — самый начитанный человек за всю жизнь просматривает от силы несколько тысяч книг, а наизусть — знает радикально меньше. Если "модель мозгов" уже "выучила" сотни или даже тысячи книг, то проблема, видимо — с моделью, а не с количеством информации
no subject
Date: 2023-11-26 09:56 pm (UTC)Эта разница уже сыграла. Системы уровня ГПТ-2 были лишь забавными игрушками, а про существование OpenAI никто толком и не знал. Фрики какие-то. Они скорее всего сами не верили, но что-то надо было делать.
no subject
Date: 2023-11-27 06:37 am (UTC)Вот она уже сыграла. Это отыгранная карта, в отбой ушла. Следующий раз она же уже не сыграет.
no subject
Date: 2023-11-25 10:37 pm (UTC)Вот очень хорошая демонстрация, что система уровня ЧатГПТ не читала исходных произведений, но что-то слышала про них и активно галлюционирует на тему.