Начну пожалуй в отдельной теме и посмотрим как пойдет а то мы с ZAMPRED и Karlson в непрофильной теме нафлудили.
Сейчас очень много кто рассуждает о ИИ не понимая многих очень базовых вещей, например что большие языковые модели (ChatGPT и иже с ними) не равно ИИ. Поэтому немного базы
Что такое ИИ, машинное обучение, нейросети, генерирующие модели и языковые модели типа ЧатГПТ
"Искусственный интеллект" это вообще все способы заставить "машину" действовать как "человек".
"Машинное обучение" это раздел ИИ который занимается ОБУЧЕНИЕМ программ на данных.
- Классическое обучение: решает задачи классификации (пример загружены данные миллиона человек с результатами анализов, и есть признак "болен раком" (да или нет). Машина перебирает сочетания параметров (например, 1000 параметров - возраст, пол, уровень сахара в крови,...) и вычисляет коэффициенты "значимости" параметра для прогноза. Когда она научилась можно дать ей параметры человека на кортором она не училась и она скажет - у него рак (или нет рака) то есть классифицирует его. Это давно и хорошо работает. Кластеризации например на входе список клиентов с признаками а она их делит на "кучки" (хорошие плохие нейтральные) по каким то правилам которые сама для себя вырабатывает (с подсказками обучающего) Регрессии (имеем статистику температуры за 100 лет предсказываем какая будет завтра
- Нейросети: еще один подход когда пытаются иммитировать "думание" когда программа (сеть из искусственных нейронов) сама на основании данных пытается обучиться. Для классического обучения требуется участие человека в отборе признаков, нейросети сами пытаются обучиться, при этом обычно теряется возможность "объяснения" почему сеть приняла такое решение. В нейросеть загрузили всю твою переписку в соцсетях а она предсказала есть у тебя диабет или нет. Причем предсказала правильно. Почему ХЗ но работает.
Внутри нейросетей есть подраздел ГЕНЕРИРУЮЩИХ моделей цель которых создание "уникального" контента. Примеры - генераторы изображений (нарисуй мне красную машину с большими колесами похожую на...)
Внутри генерирующих моделей есть ТЕКСТОВЫЕ генерирующие модели. Они предназначены для генерации текстового контента
Внутри текстовых моделей есть БОЛЬШИЕ языковые модели (LLM) - пример ЧатГПТ и ДипСик. Их суть (очень упрощенно) в них загрузили все что есть в мире в текстовом виде они само-обучились на этом предсказывать СЛЕДУЮЩЕЕ слово исходя из предыдущего. Если слово ЯЩИК то следующее скорее всего ВОДКИ. И так далее. И на основании этой статистики делается вся дальнейшая магия. Эта штука просто "прочитала все в мире книги" и знает что за столом А дальше идет Б с вероятностью 99%. И генерит цепочки слов с наибольшей вероятностью. И - магия - оно работает.
Проблемы - оно обучалось на контенте созданном людьми и проверенном. Этот контент ЗАКОНЧИЛСЯ. А чтобы улучшать нужно на чем то учить. Условно говоря все стихи Пушкина она уже знает и все что из них можно выжать выжала. Чтобы улучшать нужно еще а его нет. При этом все больше стихов в стиле пушкина генерится моделями, выкладывается в интернет и на них снова учатся новые поколения моделей. Но новые данные для обучения хуже чем "оригинал" (в среднем, пусть допустим и немного хуже). И новые версии моделей потенциально становятся хуже. С этим сейчас пытаются бороться (пока с переменным успехом)
Что имеем сейчас - модели уже ОЧЕНЬ крутые и могут решать задачи.
Ресурсы которые на это тратятся - огромны. ВСЕ ИИ провайдеры работают в огромный минус. Надежда на будущее когда окупится
Что будет дальше пока непонятно. Надеемся на лучшее готовимся к худшему
Что мог кратко описал, я не прям чтобы эксперт так общее понимание имею
ЧатГПТ точка в центре самого внутреннего "кружка"
Сейчас очень много кто рассуждает о ИИ не понимая многих очень базовых вещей, например что большие языковые модели (ChatGPT и иже с ними) не равно ИИ. Поэтому немного базы
Что такое ИИ, машинное обучение, нейросети, генерирующие модели и языковые модели типа ЧатГПТ
"Искусственный интеллект" это вообще все способы заставить "машину" действовать как "человек".
"Машинное обучение" это раздел ИИ который занимается ОБУЧЕНИЕМ программ на данных.
- Классическое обучение: решает задачи классификации (пример загружены данные миллиона человек с результатами анализов, и есть признак "болен раком" (да или нет). Машина перебирает сочетания параметров (например, 1000 параметров - возраст, пол, уровень сахара в крови,...) и вычисляет коэффициенты "значимости" параметра для прогноза. Когда она научилась можно дать ей параметры человека на кортором она не училась и она скажет - у него рак (или нет рака) то есть классифицирует его. Это давно и хорошо работает. Кластеризации например на входе список клиентов с признаками а она их делит на "кучки" (хорошие плохие нейтральные) по каким то правилам которые сама для себя вырабатывает (с подсказками обучающего) Регрессии (имеем статистику температуры за 100 лет предсказываем какая будет завтра
- Нейросети: еще один подход когда пытаются иммитировать "думание" когда программа (сеть из искусственных нейронов) сама на основании данных пытается обучиться. Для классического обучения требуется участие человека в отборе признаков, нейросети сами пытаются обучиться, при этом обычно теряется возможность "объяснения" почему сеть приняла такое решение. В нейросеть загрузили всю твою переписку в соцсетях а она предсказала есть у тебя диабет или нет. Причем предсказала правильно. Почему ХЗ но работает.
Внутри нейросетей есть подраздел ГЕНЕРИРУЮЩИХ моделей цель которых создание "уникального" контента. Примеры - генераторы изображений (нарисуй мне красную машину с большими колесами похожую на...)
Внутри генерирующих моделей есть ТЕКСТОВЫЕ генерирующие модели. Они предназначены для генерации текстового контента
Внутри текстовых моделей есть БОЛЬШИЕ языковые модели (LLM) - пример ЧатГПТ и ДипСик. Их суть (очень упрощенно) в них загрузили все что есть в мире в текстовом виде они само-обучились на этом предсказывать СЛЕДУЮЩЕЕ слово исходя из предыдущего. Если слово ЯЩИК то следующее скорее всего ВОДКИ. И так далее. И на основании этой статистики делается вся дальнейшая магия. Эта штука просто "прочитала все в мире книги" и знает что за столом А дальше идет Б с вероятностью 99%. И генерит цепочки слов с наибольшей вероятностью. И - магия - оно работает.
Проблемы - оно обучалось на контенте созданном людьми и проверенном. Этот контент ЗАКОНЧИЛСЯ. А чтобы улучшать нужно на чем то учить. Условно говоря все стихи Пушкина она уже знает и все что из них можно выжать выжала. Чтобы улучшать нужно еще а его нет. При этом все больше стихов в стиле пушкина генерится моделями, выкладывается в интернет и на них снова учатся новые поколения моделей. Но новые данные для обучения хуже чем "оригинал" (в среднем, пусть допустим и немного хуже). И новые версии моделей потенциально становятся хуже. С этим сейчас пытаются бороться (пока с переменным успехом)
Что имеем сейчас - модели уже ОЧЕНЬ крутые и могут решать задачи.
Ресурсы которые на это тратятся - огромны. ВСЕ ИИ провайдеры работают в огромный минус. Надежда на будущее когда окупится
Что будет дальше пока непонятно. Надеемся на лучшее готовимся к худшему
Что мог кратко описал, я не прям чтобы эксперт так общее понимание имею
ЧатГПТ точка в центре самого внутреннего "кружка"
Последнее редактирование:

