Здравствуйте, человек! Это новый выпуск моего еженедельного информационного бюллетеня, в котором собрана небольшая подборка интересных статей прошлой недели, проектов, руководств и инструментов; все, что связано с данными, искусственным интеллектом и смежными темами. Ничего страшного!
📝 Интересные публикации на этой неделе
- EleutherAI утверждает, что новая модель НЛП приближается к производительности на уровне GPT-3
5'
EleutherAI выпустила модель GPT-J-6B (также известную как GPT-J), которая, по утверждению группы, работает почти на одном уровне с эквивалентной моделью ГПТ-3 на различных задачах. - Улучшение поведения языковой модели путем обучения на тщательно подобранном наборе данных
6'
Исследователи OpenAI обнаружили, что они могут улучшить поведение языковой модели в отношении определенных поведенческих значений (уменьшив предвзятость и токсичность) путем тонкой настройки в тщательно подобранном наборе данных из ‹100 примеров этих значений. - Ученые DeepMind: обучения с подкреплением достаточно для общего ИИ
13'
Эти исследователи предполагают, что максимизация вознаграждения и опыт проб и ошибок достаточны для развития поведения, демонстрирующего способности, связанные с интеллект. - Сколько времени пройдет, прежде чем ИИ сможет «понимать животных?»
8'
ИИ может дать нам возможность надежно переводить животных в следующем десятилетии или около того.
- Что такое сетка данных?!
10'
Что такое сетка данных, а что нет. - Табличные данные: глубокое обучение — это еще не все, что вам нужно
11p
В этом документе рассматривается вопрос о том, следует ли рекомендовать модели глубокого обучения для табличных данных, путем тщательного сравнения новых глубоких моделей с XGBoost на разнообразные наборы данных.
🔧 Учебники
- Сравнение библиотек Python Data Viz
14'
Записная книжка, содержащая 8 популярных графиков, созданных с помощью pandas, matplotlib, seaborn и plotly.express.
📦 Репозитории
- amundsen-io/amundsen
Amundsen — это механизм обнаружения данных и метаданных. - IBM/UQ360
Набор инструментов Uncertainty Quantification 360 предоставляет разнообразный набор алгоритмов для количественной оценки неопределенности. - jina-ai/jina
Jina позволяет создавать поиск как услугу на основе глубокого обучения всего за несколько минут. - wellecks/naturalproofs
NaturalProofs — это многодоменный корпус математических утверждений и их доказательств, написанных на естественном математическом языке. - facebookresearch/flores
Flores-101 — это эталонный набор данных многоязычного перевода многие ко многим для 101 языка, состоящий из 3000 предложений, извлеченных из англоязычной Википедии и тщательно переведенных на остальные. Подробнее здесь. - graph4ai/graph4nlp
Graph4NLP — это библиотека для исследований и разработок на стыке глубокого изучения графов и обработки естественного языка. - PrithivirajDamodaran/Gramformer
Gramformer — это платформа для обнаружения, выделения и исправления грамматических ошибок в тексте на естественном языке.
🎓 Курсы / События / Книги
- Наука о данных в командной строке 📕
Общедоступный проект второго издания этой книги, написанный Йеруном Янссенсом.
- Курс OpenCV Python
3h
📹
Узнайте, как использовать OpenCV для компьютерного зрения и искусственного интеллекта в этом базовом курсе для начинающих. - Курс Hugging Face 🤗
Совершенно бесплатный курс, созданный инженерами Hugging Face, который научит вас обработке естественного языка с использованием библиотек из экосистемы Hugging Face.
👋 Увидимся на следующей неделе!