Głębokie uczenie przez wzmacnianie. Praca
- Час доставки: 7-10 днів
- Стан товару: новий
- Доступна кількість: 1
Просматривая «Głębokie uczenie przez wzmacnianie. Praca» данный товар из каталога «E-бизнес», вы можете получить дополнительную скидку 4%, если произведете 100% предоплату. Размер скидки вы можете увидеть сразу при оформлении заказа на сайте. Внимание!!! Скидка распространяется только при заказе через сайт.
Глибоке навчання з підкріпленням. Робота
Оригінальна назва: Deep reinforcement learning. Твір
Автор: Максим Лапан
Видавництво: Геліон
Рік видання : 2022
Переклад: Яцек Януш
ISBN: 9788328380523
Формат: 168x237
Обкладинка: м'яка
Сторінок: 720
Книга нова
Ціна обкладинки книги: 149,00 злотих > акційну ціну можна знайти на нашому аукціоні!
Глибоке навчання з підкріпленнямрозвивається дуже динамічно. Ця сфера характеризується невичерпним потенціалом для вирішення складних завдань. Принаймні кілька дослідницьких груп працюють над цим, зосереджуючись на впровадженні глибокого навчання з підкріпленням у різних галузях. На жаль, описи останніх розробок важко зрозуміти та надто абстрактні, щоб їх було легко застосувати на практиці, однак правильна робота програми залежить від глибокого розуміння проблеми розробником.
Це оновлене та розширене видання посібника-бестселера з використанням найновіших інструментів і методів навчання з підкріпленням. Він представляє теорію навчання з підкріпленням і пояснює практичні способи кодування самонавчальних агентів для вирішення практичних завдань. Це видання додає шість нових розділів, присвячених таким технологічним досягненням, як дискретна оптимізація, багатоагентні методи, середовище Microsoft TextWorld і передові методи видобутку. Також розглядаються інші теми, зокрема глибокі мережі Q, градієнти політики, безперервний контроль і високомасштабовані безградієнтні методи. Окремі проблеми проілюстровано кодом разом із описом деталей реалізації.
Книга містить, зокрема:
- зв’язки між навчанням із підкріпленням і глибоким навчанням
- різноманітні методи підкріплення навчання, включаючи перехресну ентропію, мережу DQN, а також алгоритми: актор-критик, TRPO, PPO, DDPG, D4PG та інші
- практичне застосування дискретної оптимізації для вирішення проблеми Рубіка Проблема з кубом
- навчання агентів за допомогою програмного забезпечення AlphaGo Zero
- чат-боти на основі штучного інтелекту
- передові методи дослідження, включаючи методи дистиляції мережі