MICROSOFT ПРЕДСТАВИЛА НЕЙРОСЕТЬ PHI-3-VISION: РАБОТАЕТ С ТЕКСТОМ И КАРТИНКАМИ, ЛУЧШЕ ВСЕГО ПОДХОДИТ ДЛЯ СМАРТФОНОВ

anonymous · 21 Май 2024

microsoft-predstavila-nejroset-phi-3-vision-rabotaet-s-tekstom-i-kartinkami-luchshe-vsego-podh...jpg

Microsoft анонсировала новую нейросеть семейства небольших языковых моделей Phi-3, которая может работать с изображениями. Phi-3-vision — первая мультимодальная модель, объединяющая текст и изображения, она способна анализировать картинки, извлекать текст и другую информацию.

Microsoft утверждает, что Phi-3-vision лучше всего использовать на мобильных устройствах. Нейросеть обладает 4,2 млрд параметров и на текущий момент доступна в предварительной версии. Количество параметров влияет на то, как языковая модель может выполнять общие задачи визуального мышления. Например, что касается вопросов с диаграммами, графиками или изображениями. По этому показателю Phi-3-vision сильно уступает другим ИИ-моделям, ориентированным на работу с картинками, — DALL-E и Stable Diffusion. В отличие от этих моделей, Phi-3-vision не генерирует изображения, но понимает, что на них изображено, и умеет анализировать их. С другой стороны Phi-3-vision превосходит более крупные модели, такие как Claude-3 Haiku и Gemini 1.0 Pro V, при выполнении общих задач визуального мышления, оптического распознавания символов, чтения таблиц и диаграмм.

Microsoft анонсировала Phi-3 в апреле этого года. На сегодняшний день в этом семействе языковых моделей, помимо vision, насчитывается ещё три нейросети: Phi-3-mini, Phi-3-small и Phi-3-medium. Их рационально использовать на портативных устройствах, таких как смартфоны и ноутбуки, без необходимости занимать слишком много памяти. Они доступны в Microsoft Azure.

Добро пожаловать в сообщество My.Net.Ru

MICROSOFT ПРЕДСТАВИЛА НЕЙРОСЕТЬ PHI-3-VISION: РАБОТАЕТ С ТЕКСТОМ И КАРТИНКАМИ, ЛУЧШЕ ВСЕГО ПОДХОДИТ ДЛЯ СМАРТФОНОВ

anonymous

Создатель

Тему смотрели (Всего: 0)