Адрес для входа в РФ: exler.xyz

Совсем недавно компания OpenAI представила модель ИИ под названием Sora, которая умеет создавать реалистичные видео по обычным текстовым запросам.

А теперь компания ElevenLabs, занимающаяся автоматической озвучкой текста и генерацией аудио, показала, как ее ИИ может создавать озвучку для видео - тоже по простым текстовым промптам.

В демонстрационном ролике озвучиваются примеры, созданные Sora.

Кстати, компания ElevenLabs была основана Петром Дабковским, бывшим инженером по машинному обучению Google, и Мати Станишевским, бывшим стратегом по внедрению Palantir, для разработки сверхреалистичных моделей преобразования текста в речь для образования, аудиокниг, игр, фильмов, бизнеса и так далее. Компания получила $19 млн инвестиций.

И вот один из впечатляющих примеров их разработок: ИИ вслух читает роман Скотта Фицджеральда "Великий Гэтсби".

ИИ открывает новые горизонты. Компания OpenAI продемонстрировала новую модель ИИ под названием Sora. Эта модель умеет создавать реалистичные и впечатляющие видео по обычным текстовым запросам. Вот подробное описание того, на чем строится данная технология.  

Приведенные примеры впечатляют безмерно. И там утверждается, что это именно результаты приведенных запросов без дополнительной обработки.

А ведь еще с год назад ИИ по текстовым описаниям рисовала разве что кривенькие картинки. А уж когда ИИ пытался нарисовать видео по запросу - получалось то самое видео с Уиллом Смитом, над которым ржал весь Интернет (я его в P.S. привел).

Вот, например, запрос (перевод с английского):

Стильная женщина идет по токийской улице, залитой теплым светящимся неоном и анимированными городскими вывесками. На ней черная кожаная куртка, длинное красное платье, черные сапоги и черная сумочка. На ней солнцезащитные очки и красная помада. Она идет уверенно и непринужденно. Улица влажная и отражающая, что создает зеркальный эффект разноцветных огней. На улице много пешеходов.

Кошка будит свою спящую хозяйку, требуя завтрак. Хозяйка пытается игнорировать кота, но тот пробует новые тактики, и в конце концов хозяйка достает из-под подушки тайник с лакомствами, чтобы отвлечь кота.

Тут, кстати, с лакомством что-то не сложилось, но кот - это что-то с чем-то!

В анимированной сцене крупным планом изображен короткий пушистый монстр, стоящий на коленях возле тающей красной свечи. Художественный стиль - 3D и реалистичный, с акцентом на освещение и текстуру. Настроение картины - удивление и любопытство, ведь монстрик смотрит на пламя широко раскрытыми глазами и открытым ртом. Его поза и выражение лица передают ощущение невинности и игривости, как будто он впервые исследует окружающий мир. Использование теплых цветов и эффектного освещения еще больше усиливает уютную атмосферу изображения.

продолжение здесь

Шериф Тиллман - один из ключевых персонажей 5-го сезона "Фарго"

Я немало работаю со всякими ИИ - пытаюсь приспособить их под свои задачи: в основном, под поиск и подбор различной информации. Интересно то, что ChatGPT 3.5 и ChatGPT 4, на котором работает CoPilot Windows, часто выдают совершенно различные результаты.

Хуже всего, по моей практике, они справляются с просьбами пересказать содержимое какого-то фильма и в особенности - какого-то сезона сериала. Нередко несут прямо-таки полный бред.

Сейчас тестирую гугловский ИИ Gemini. Попросил его рассказать сюжет 5-го сезона "Фарго". Кто этот сезон смотрел - оцените уровень бреда в ответе.

Действие пятого сезона разворачивается в 2019 году. В центре сюжета - домохозяйка Дот Малво (Джуно Темпл), жизнь которой переворачивается с ног на голову после неудавшегося похищения. Дот не рассказывает о случившемся никому, даже своему мужу Уэйну (Дэвид Рисдал), утверждая, что это был нервный срыв.

Тем временем, в расследование похищения Дот вовлекается шериф местной полиции Летти Мейфлер (Дженнифер Джейсон Ли). Летти, чей авторитет в городе под угрозой, полна решимости докопаться до истины.

Помимо Дот и Летти, в сериале фигурируют и другие персонажи:

  • Эннис Сент-Джермейн (Джейсон Шварцман), аферист, который оказывается втянутым в историю Дот.
  • Одетта Майерс (Керри Кондон), медсестра, которая ухаживает за больным отцом Дот.
  • Уильям "Габриэль" Уидди (Джек Хьюстон), гангстер, который прибывает в город, чтобы разобраться с Дот.

Сюжет пятого сезона "Фарго" полон неожиданных поворотов. Зрителям предстоит узнать, кто же на самом деле стоит за похищением Дот, и какие тайны она скрывает от своих близких.

Некоторые ключевые моменты сюжета:

  • Дот Малво - не та, кем кажется. У нее есть темное прошлое, которое она скрывает от всех.
  • Похищение Дот было не случайным. Это часть более крупного заговора.
  • Шериф Летти Мейфлер одержима поимкой преступников, но ей мешает ее собственная некомпетентность.
  • Эннис Сент-Джермейн - не тот, кем кажется. У него есть свои планы на Дот.
  • Одетта Майерс - не просто медсестра. Она играет важную роль в жизни Дот.
  • Уильям "Габриэль" Уидди - опасный человек, который не остановится ни перед чем, чтобы добиться своего.

Сериал "Фарго" известен своим фирменным стилем: черный юмор, колоритные персонажи, неожиданные сюжетные повороты. Пятый сезон не стал исключением.

Четвертый ChatGPT тоже не сказать что хорошо с этим справился, но он хоть персонажей и актеров правильно перечислил:

Пятый сезон телесериала “Фарго” — это криминальная драма и чёрная комедия, созданная Ноем Хоули. Сезон был анонсирован в феврале 2022 года и состоит из 10 эпизодов. Премьера состоялась 21 ноября 2023 года.

Сюжет пятого сезона построен на традиционном для шоу смешении криминальной драмы и чёрной комедии. Главные вопросы, которые ставит перед героями жизнь: “Когда похищение ребенка не считается похищением?” и “Что если твоя жена — не твоя жена?”. Действие сезона происходит в 2019 году1.

Вот некоторые из главных ролей в пятом сезоне:

Джон Хэмм — Рой Тиллман
Джуно Темпл — Дороти “Дот” Лион
Дженнифер Джейсон Ли — Лоррейн Лион
Дэвид Рисдал — Уэйн Лион
Джо Кири — Гатор Тиллман
Ламорн Моррис — Витт Фарр
Рича Мурджани — Индира Олмстед
Сэм Спруэлл — Оле Мунк
Сиенна Кинг — Скотти Лион
Дэйв Фоли — Дэниш Грейвз

В общем, ИИ по-прежнему в большом долгу.

ChatGPT написал сценарий передачи в духе BBC Planet, и ИИ воплотил этот сценарий в видео. Ну, пока смотрится несколько мультяшно, хотя есть хорошие идеи, но все еще впереди: пройдет немного времени, и это все будет выглядеть пугающе достоверно.

Юный Алекс, которому 17 врачей не смогли поставить правильный диагноз

Показательную историю рассказала в издании Today женщина, которую зовут Кортни.

С 2021 года ее 4-летний сын по имени Алекс начал испытывать различные боли. Няня ребенка сказала Кортни, что она вынуждена время от времени давать ребенку Motrin (ибупрофен), чтобы избавить его от боли и соответствующих срывов.

Ребенок явно страдал, вел себя очень странно, закатывал истерики, периодически начинал грызть предметы. Родители водили его по врачам. В какой-то момент его обследовал ортодонт (у родителей было подозрение, что ребенок плохо спит, из-за чего выглядит измученным), и ортодонт обнаружил определенные проблемы с нёбом у ребенка. Ему поставили на нёбо специальный расширитель, и на какое-то время ситуация заметно улучшилась.

Потом Кортни заметила, что Алекс перестал расти, что у него наблюдается дисбаланс между правой и левой стороной тела, также он стал испытывать сильные головные боли. 

Алекса водили к педиатрам, узким специалистам: всего за 3 года они посетили 17 врачей и провели множество обследований, но никто из них так и не смог поставить диагноз, который бы объяснял все симптомы.

И тогда уже отчаявшаяся Кортни зарегистрировалась в ChatGPT и ввела там всю информацию об обследованиях и все симптомы.

ChatGPT высказал предположение о том, что это может быть синдром перетянутого позвоночника. Кортни нашла в Facebook группу, объединяющую семьи детей с этим синдромом, и их истории были похожи на историю Алекса. Тогда они пошли к новому нейрохирургу, и Кортни сказала, что подозревает у сына наличие этого синдрома. Доктор посмотрела снимки МРТ и сказала, что диагноз совершенно правильный: она на снимке увидела occulta spina bifida (осколочный спинальный дефект) и перетянутый позвоночник. 

По данным Американской ассоциации неврологических хирургов, синдром перетянутого позвоночника возникает, когда ткани спинного мозга образуют крепления, ограничивающие подвижность спинного мозга, вызывая его ненормальное растяжение. Это состояние тесно связано со spina bifida - врожденным дефектом, при котором часть спинного мозга развивается не полностью, и некоторые участки спинного мозга и нервов оказываются оголенными.

При синдроме переплетения спинного мозга "спинной мозг к чему-то прилипает". Это может быть опухоль в спинномозговом канале. Это может быть шишка на костном шипе. Это может быть просто слишком много жира на конце спинного мозга", - рассказывает TODAY.com доктор Холли Гилмер, детский нейрохирург из Мичиганского института головы и позвоночника, который лечил Алекса.

У многих детей со spina bifida есть видимое отверстие в спине. Но у Алекса оно закрыто и считается "скрытым", также известным как spina bifida occulta, согласно данным Центров по контролю и профилактике заболеваний США.

После получения правильного диагноза Алекс перенес операцию по устранению этого синдрома, и теперь он, по словам Кортни, быстро восстанавливается.


Специалисты признают, что в определенных случаях ChatGPT может поставить диагноз точнее, чем соответствующий специалист, потому что он оперирует с огромными объемами информации, и у него нет "слепых зон", как у врача-человека.

Однако следует иметь в виду, что ChatGPT иногда может фабриковать какую-то информацию, если не может найти правильный ответ, и тогда диагноз будет поставлен неправильно.

Но в любом случае специалисты считают, что использование систем искусственного интеллекта в диагностике имеет большие перспективы.


 

Несколько дней назад Google опубликовал видеопрезентацию своего ИИ Gemini, и многие журналисты и аналитики, впечатленные увиденным, поспешили объявить о том, что ChatGPT, мол, умер, да здравствует Gemini.

Впрочем, среди специалистов неоднократно высказывались сомнения в том, что в ролике продемонстрирована реальная работа Gemini, а не результат неких манипуляций с реальными действиями. Например, в издании Bloomberg это подробно разбирали.

Судя по результатам «расследования», все показанные в ролике изображения, текстовые подсказки и ответы были тщательно подобраны заранее, а фактический процесс запроса был сильно сокращён для зрителей в угоду зрелищности и динамике происходящего. Один из сотрудников Google рассказал журналистам, что, по его мнению, видеоряд показывает нереалистичную картину. Другой отметил, что не был удивлён такой демонстрации, потому что привык к маркетинговой шумихе — по его словам, «все компании так делают». (Отсюда.)

В Google, кстати, признали, что ролик был постановочным, и что Gemini отвечал с помощью оставленных за кадром подсказок. Также в процессе монтажа  итогового ролика задержка при обработке запроса нейросетью была уменьшена.

При этом в Google заявили, что их просто неправильно поняли - мол, они в ролике просто демонстрировали интерфейс Gemini, а приведенные примеры не следует воспринимать буквально.

После этого техноблогер Greg Technology решил повторить все запросы из нашумевшего видео без монтажа, но с использованием GPT-4. Он воссоздал несколько сценариев из оригинального ролика Google: попросил распознать жест, определить игру «Камень, ножницы, бумага» и сказать, что нарисовано на листе бумаги. Нейросеть без труда справилась со всеми задачами, не считая задержки в несколько секунд перед выдачей ответа. По словам блогера, он хотел показать, что «смонтированные» возможности Gemini уже доступны в GPT-4. Хоть и работают не так быстро, как в рекламных видео. Но зато безо всякого монтажа и без читерства.

Плохо дело, ChatGPT-4 выходит из-под контроля.

Пользователи жалуются на то, что этот ИИ периодически отказывается отвечать на запросы, в ответ буркнув что-то вроде "найди сам, если тебе надо", также он может выдать только небольшую часть запрошенной информации, предложив пользователю напрячься самому и поискать остальное. 

Пользователи даже предположили, что это было сделано намеренно разработчиками, чтобы снизить нагрузку на серверы.

В OpenAI, разработчике чатбота, заявили, что они знают о жалобах, но они, мол, не вносили никакие изменения в код, так что сами не понимают, с чего вдруг чатбот внезапно охамел. Они, конечно, тоже обеспокоены поведением ChatGPT-4 и будут разбираться с этим вопросом. Возможно, они сумеют убедить чатбота более ответственно подходить к своим обязанностям. А может, и не сумеют - кто там знает, о чем думает эта бездушная железка. Может, ей просто надоели эти людишки с их тупыми вопросами. 

Все это очень познавательно, как я считаю.

Судя по всему, довольно скоро уже не понадобятся супер-мега-эксперты (которых в природе, к сожалению, не существует), способные с одного глотка произвольного вина определить марку и хозяйство, в котором это вино было произведено. Потому что это сможет делать искусственный интеллект.

Любопытная статья, в которой рассказывается о том, специальным образом обученный алгоритм смог со 100-процентной точностью определить, в каком именно шато было произведено то или иное вино. 

Конечно, алгоритм определял не любое вино, а одно из 80 бордосских вин, по которым производилось обучение, но это означает, что теоретически возможно охватить и все хозяйства мира.

Занимались этим Александр Пуже из Женевского университета и его коллеги: они использовали машинное обучение для анализа химического состава 80 красных вин 12-летней выдержки в период с 1990 по 2007 год. Все вина были получены из семи винодельческих хозяйств в регионе Бордо во Франции.

Они хотели выяснить, существует ли некая " химическая подпись", характерная для каждого из этих шато, которая не зависит от года урожая. Для этого они использовали машину для выпаривания каждого вина и разделения его на химические компоненты. Этот метод позволил получить для каждого вина хроматограмму, состоящую из 30 000 точек, представляющих различные химические соединения.

Исследователи использовали 73 хроматограммы для обучения алгоритма машинного обучения, а также данные о шато и годе происхождения. Затем они протестировали алгоритм на семи хроматограммах, которые были отложены.

Они повторили этот процесс 50 раз, каждый раз меняя используемые вина. Алгоритм правильно угадывал шато происхождения в 100 процентах случаев. Также алгоритм определял год с точностью до 50 процентов.

Построив график хроматограмм, алгоритм также смог разделить вина на группы, которые были более похожи друг на друга. Так, вина с правого берега реки Гаронны, называемые винами Помероля и Сент-Эмильона, были отделены от вин из левобережных хозяйств, называемых винами Медока.

Эта работа - еще одно доказательство того, что местная география, климат, микробы и методы виноделия, вместе называемые терруаром, действительно придают вину уникальный вкус. Однако какие именно химические вещества лежат в основе каждого вина, в данном исследовании не рассматривалось.

Ну и для тех, кого интересуют чисто технические подробности - вот статья группы Пуже в научном химическом издании. Там подробно рассказывается о том, как составлялись и анализировались хроматограммы.

Я сейчас изучаю возможности Foocus V2 (собственно, для этого я и покупал новую видеокарту)  - это нейросеть, создающая изображения по текстовому описанию (и, возможно, по другим изображениям), базирующаяся на Stable Diffusion XL. Система крайне интересная, однако генерация каждой картинки по не особенно сложному запросу занимает на моем компьютере примерно 25 секунд. Что, с одной стороны, очень недолго, но, с другой, там явно есть возможности для совершенствования процесса.

Так вот, буквально вчера компания Stability.ai, разработчик Stable Diffusion XL, представила новую модель Stable Diffusion XL Turbo, которая может генерировать и изменять изображение прямо в процессе набора текстового запроса.

Вот как это выглядит.

А вот здесь в онлайне вы можете попробовать самостоятельно сгенерировать изображение (на английском) наблюдая за тем, как картинка появляется в реальном времени (внимание: бесплатно дается только пара попыток).

Вот, например, моя попытка.

Ну вот что мне нарисовала Foocus V2 в реалистичной манере по тому же запросу (без уточнений) за 30 шагов.

Тот же запрос у Leonardo.ai.

Примеры изображений, созданных с помощью Stable Diffusion XL Turbo.

Главная инновация SDXL Turbo заключается в способности создавать изображения за один шаг, что значительно меньше, чем 20-50 шагов, которые требовались его предшественнику. Компания Stability приписывает этот скачок в эффективности технике, которую она называет Adversarial Diffusion Distillation (ADD).

Компания Stability подробно описала внутреннюю работу модели в опубликованном во вторник исследовательском документе, посвященном технике ADD.

Изображения SDXL Turbo не столь детализированы, как изображения SDXL, полученные при большем количестве шагов, поэтому его нельзя считать заменой предыдущей модели. Но за счет экономии скорости результаты получаются впечатляющими.

Скорость генерации SDXL Turbo - это то, что называется "реальным временем". Stability AI утверждает, что на Nvidia A100 (мощном GPU с поддержкой искусственного интеллекта) модель может генерировать изображение размером 512×512 за 207 мс, включая кодирование, один шаг шумоподавления и декодирование. Подобная скорость может привести к созданию генеративных видеофильтров ИИ в реальном времени.

Генерация высокоточных изображений за один шаг. Все образцы сгенерированы с помощью диффузионной дистилляции (ADD)

В ТГ "Безвольные каменщики" интересный пост о применении ChatGPT для изучения иностранного языка. Я как-то не задумывался о таком применении этого ИИ, а между тем, это может оказаться интересным и полезным. Надо будет попробовать.

А вы пробовали использовать ChatGPT для изучения иностранного языка? Если есть какой-то опыт, поделитесь в комментариях, плиз.

Итак, как можно использовать ChatGPT для занятий иностранным языком. Способ №1: углубленное чтение текстов. Предположим, вы хотите прочитать статью в Der Spiegel, The New York Times или Le Monde. Или книгу на иностранном языке. Или текст из учебника. Раньше вы бы делали это медленно, спотыкаясь о незнакомые слова, и либо каждый раз смотрели бы их в словаре, либо пытались понять смысл по контексту. Это важное и полезное дело, но ChatGPT может сделать его еще полезнее – и быстрее.

Для этого вам нужно обозначить ИИ задачу – написать промпт. Так как ChatGPT умеет понимать естественный язык, промпт для него выглядит не как код, а как обычное предложение. Например, такое: «Разбей на предложения, переведи каждое на русский, текст на немецком выдели жирным, дай пояснения по сложным грамматическим конструкциям и лексике». Вставьте в строку запросов этот промпт, потом ваш текст на иностранном языке – и вуаля.

Вам больше не нужно думать: «А вот это вот – это устойчивое выражение или нет», – нейросеть обозначит и пояснит вам все места, где они есть. И заодно объяснит смысл неочевидных грамматических и лексических конструкций, о которых вы вполне могли и не знать. Чтение текстов таким образом экономит массу времени: никого долгого поиска, вам нужно только прочитать и осознать.

Важно! Хотя ChatGPT, а особенно ChatGPT-4 (платная) – очень мощная штуковина, это не мудрец, который знает ответы на все вопросы. Она создает свои ответы, вставляя наиболее вероятное следующее слово в том контексте, в котором задан запрос. Так что иногда она глючит и выдает явно ошибочные пояснения или не совсем точный перевод. Чтобы понять это, необходимо параллельно с играми с ChatGPT заниматься с преподавателем грамматикой или разбираться с ней самому. Тогда вы сможете увидеть, где нейросетка налажала (и даже сказать ей об этом, она очень смешно извиняется). Лажает она не так часто, но тем не менее.

Способ №2. Отлично дополняет предыдущий. Итак, ChatGPT расписала вам интересные места в тексте. Вы прочли и поняли, но этого мало. Для того, чтобы использовать все это в речи, вам нужно а) хорошенько запомнить слова и конструкции и б) поупражняться, чтобы наработать автоматизм. Пишем промпт: «Дай мне 5 предложений на русском для перевода на [язык, который учите], в которых есть те конструкции, которые ты пояснял выше. Объясни мои ошибки».

ChatGPT сгенерит вам предложения и будет скрупулезно, но очень вежливо объяснять, где вы ошиблись. Если вы понимаете, что тренировки недостаточно, напишите: «Дай еще пять предложений» и повторяйте до тех пор, пока не запомните. Опять же, гениальная штука для репетиторов: больше не надо выдумывать однотипные примеры, ИИ сделает это за вас за несколько секунд.

Теги
Сортировать по алфавиту или записям
BLM 20
Calella 138
exler.ru 242
авто 423
видео 3714
вино 345
еда 477
ЕС 54
игры 113
ИИ 16
кино 1530
попы 183
СМИ 2529
софт 901
США 71
шоу 6