Искусственные укусы 💊 Выпуск №44

Здравствуйте, человек! Это новый выпуск моего еженедельного информационного бюллетеня, в котором собрана небольшая подборка интересных статей прошлой недели, проектов, руководств и инструментов; все, что связано с данными, искусственным интеллектом и смежными темами. Ничего страшного!

📝 Интересные публикации на этой неделе

EleutherAI утверждает, что новая модель НЛП приближается к производительности на уровне GPT-3 5'
EleutherAI выпустила модель GPT-J-6B (также известную как GPT-J), которая, по утверждению группы, работает почти на одном уровне с эквивалентной моделью ГПТ-3 на различных задачах.
Улучшение поведения языковой модели путем обучения на тщательно подобранном наборе данных 6'
Исследователи OpenAI обнаружили, что они могут улучшить поведение языковой модели в отношении определенных поведенческих значений (уменьшив предвзятость и токсичность) путем тонкой настройки в тщательно подобранном наборе данных из ‹100 примеров этих значений.
Ученые DeepMind: обучения с подкреплением достаточно для общего ИИ 13'
Эти исследователи предполагают, что максимизация вознаграждения и опыт проб и ошибок достаточны для развития поведения, демонстрирующего способности, связанные с интеллект.
Сколько времени пройдет, прежде чем ИИ сможет «понимать животных?» 8'
ИИ может дать нам возможность надежно переводить животных в следующем десятилетии или около того.

Что такое сетка данных?! 10'
Что такое сетка данных, а что нет.
Табличные данные: глубокое обучение — это еще не все, что вам нужно 11p
В этом документе рассматривается вопрос о том, следует ли рекомендовать модели глубокого обучения для табличных данных, путем тщательного сравнения новых глубоких моделей с XGBoost на разнообразные наборы данных.

🔧 Учебники

Сравнение библиотек Python Data Viz 14'
Записная книжка, содержащая 8 популярных графиков, созданных с помощью pandas, matplotlib, seaborn и plotly.express.

📦 Репозитории

amundsen-io/amundsen
Amundsen — это механизм обнаружения данных и метаданных.
IBM/UQ360
Набор инструментов Uncertainty Quantification 360 предоставляет разнообразный набор алгоритмов для количественной оценки неопределенности.
jina-ai/jina
Jina позволяет создавать поиск как услугу на основе глубокого обучения всего за несколько минут.
wellecks/naturalproofs
NaturalProofs — это многодоменный корпус математических утверждений и их доказательств, написанных на естественном математическом языке.
facebookresearch/flores
Flores-101 — это эталонный набор данных многоязычного перевода многие ко многим для 101 языка, состоящий из 3000 предложений, извлеченных из англоязычной Википедии и тщательно переведенных на остальные. Подробнее здесь.
graph4ai/graph4nlp
Graph4NLP — это библиотека для исследований и разработок на стыке глубокого изучения графов и обработки естественного языка.
PrithivirajDamodaran/Gramformer
Gramformer — это платформа для обнаружения, выделения и исправления грамматических ошибок в тексте на естественном языке.

🎓 Курсы / События / Книги

Наука о данных в командной строке 📕
Общедоступный проект второго издания этой книги, написанный Йеруном Янссенсом.

Курс OpenCV Python 3h 📹
Узнайте, как использовать OpenCV для компьютерного зрения и искусственного интеллекта в этом базовом курсе для начинающих.
Курс Hugging Face 🤗
Совершенно бесплатный курс, созданный инженерами Hugging Face, который научит вас обработке естественного языка с использованием библиотек из экосистемы Hugging Face.

👋 Увидимся на следующей неделе!

Искусственные укусы 💊 Выпуск №44

📝 Интересные публикации на этой неделе

🔧 Учебники

📦 Репозитории

🎓 Курсы / События / Книги

Вопросы по теме