NSQL — это новое семейство больших базовых моделей (FM) с открытым исходным кодом, разработанных специально для задач генерации SQL.

Поднимите руку, если вы пытались использовать ChatGPT или любой другой LLM для создания запросов SQL. У меня есть, и я в настоящее время! но я очень рад сообщить вам, что было выпущено новое семейство больших базовых моделей (FM) с открытым исходным кодом, разработанных специально для задач генерации SQL. Его имя NSQL. У него есть несколько версий, начиная с NSQL-350M, NSQL-2B и NSQL-6B. NSQL-6B превосходит все существующие модели с открытым исходным кодом в тестах Standard SQL и даже общие коммерческие модели, такие как ChatGPT, GPT3, GPT3.5 и GPT4.

В готовом виде или в тонкой настройке?

Почему SQL; SQL по-прежнему остается наиболее часто используемым языком. Вы можете использовать разные разновидности SQL, от Oracle, MySQL, PostgreSQL до MSSQL; но SQL по-прежнему используется повсеместно. Разве не было бы здорово, если бы мы могли писать SQL-запросы, запрашивая большую языковую модель? Это возместит столько работы и, вероятно, сделает доступ к информации более демократичным почти для всех в компании, кто в ней нуждается.

Как мы можем это сделать? Обычно мы думаем об одном из двух: о готовой модели или о тонко настроенной базовой модели для конкретной задачи. У обоих есть свои плюсы и минусы, например, готовые модели обучаются на общедоступных данных и не имеют знаний, специфичных для вашей организации.

Если вы похожи на меня, вы понимаете, что я имею в виду. Каждая компания, бизнес-подразделение и даже иногда инженер (к сожалению) могут иметь собственное соглашение об именах для различных баз данных, схем, имен таблиц и полей. Знание того, что означает каждая область, — это 80% битвы, через которую мы все боремся в первые 3–6 месяцев процесса обучения, который начинается с адаптации и, по-видимому, никогда не заканчивается. Но кроме шуток, это действительно проблема моделей с открытым исходным кодом, разработанных с использованием общедоступных данных. Настройка этих моделей с использованием данных, специфичных для организации, — это возможность для специалистов по данным и возможность для бизнеса. Это позволяет модели быть более гибкой с данными, которые может предложить каждая организация.

Можно использовать мегамодель, например GPT, и подумать, что она сработает, если я просто предоставлю контекст. Что ж, я говорю, что вы не ошибаетесь на 100%, но все же вы будете удивлены, сколько раз модель галлюцинирует (даже при температуре = 0 настроек). Также спрашивая…