Reinforcement-learning Tag

Reinforcement-learning Tag - Viblo https://viblo.asia/rss Sun* Inc. https://viblo.asia/logo_full.svg https://viblo.asia/logo_full.svg Reinforcement-learning Tag - Viblo https://viblo.asia/rss vi-vn 2026-04-10T03:13:13+07:00 <![CDATA[Tôi không train model. Nhưng tôi bắt đầu kiểm soát được hành vi của nó (Nắng AI v47)]]> https://viblo.asia/p/toi-khong-train-model-nhung-toi-bat-dau-kiem-soat-duoc-hanh-vi-cua-no-nang-ai-v47-gjLN0N8W432 https://viblo.asia/p/toi-khong-train-model-nhung-toi-bat-dau-kiem-soat-duoc-hanh-vi-cua-no-nang-ai-v47-gjLN0N8W432 Long Hoàng 2026-03-30 09:12:46 <![CDATA[[Papers Notes] RL IN NAME ONLY? ANALYZING THE STRUCTURAL ASSUMPTIONS IN RL POST-TRAINING FOR LLMS]]> https://viblo.asia/p/papers-notes-rl-in-name-only-analyzing-the-structural-assumptions-in-rl-post-training-for-llms-Yym40GpoV91 https://viblo.asia/p/papers-notes-rl-in-name-only-analyzing-the-structural-assumptions-in-rl-post-training-for-llms-Yym40GpoV91 Dương Xuân Bách 2025-05-23 23:15:08 <![CDATA[[Advanced-LLM] Reasoning LLM và Những Điều Thú Vị Mà Có Thể Bạn Đã Biết Phần 2.]]> https://viblo.asia/p/advanced-llm-reasoning-llm-va-nhung-dieu-thu-vi-ma-co-the-ban-da-biet-phan-2-aAY4q3GyLPw https://viblo.asia/p/advanced-llm-reasoning-llm-va-nhung-dieu-thu-vi-ma-co-the-ban-da-biet-phan-2-aAY4q3GyLPw Hoàng Minh An 2025-05-17 17:14:10 <![CDATA[Nhập môn Reinforcement Learning: Tabular Methods.]]> https://viblo.asia/p/nhap-mon-reinforcement-learning-tabular-methods-E1XVObjpLMz https://viblo.asia/p/nhap-mon-reinforcement-learning-tabular-methods-E1XVObjpLMz Trần Đăng An 2024-08-09 13:36:46 <![CDATA[Nhập môn Reinforcement Learning: Ứng dụng ,những điều cần biết và những lý thuyết cơ bản.]]> https://viblo.asia/p/nhap-mon-reinforcement-learning-ung-dung-nhung-dieu-can-biet-va-nhung-ly-thuyet-co-ban-yZjJYKGzVOE https://viblo.asia/p/nhap-mon-reinforcement-learning-ung-dung-nhung-dieu-can-biet-va-nhung-ly-thuyet-co-ban-yZjJYKGzVOE Trần Đăng An 2024-07-30 23:48:48 <![CDATA[RLHF & DPO: Kỹ thuật mới đơn giản hơn, tăng cường khả năng Fine-tuning cho Large language models]]> https://viblo.asia/p/rlhf-dpo-ky-thuat-moi-don-gian-hon-tang-cuong-kha-nang-fine-tuning-cho-large-language-models-zXRJ8bnZVGq https://viblo.asia/p/rlhf-dpo-ky-thuat-moi-don-gian-hon-tang-cuong-kha-nang-fine-tuning-cho-large-language-models-zXRJ8bnZVGq Phuc Phan 2023-12-13 18:51:24 <![CDATA[Bản chất ChatGPT hoạt động như thế nào?]]> https://viblo.asia/p/ban-chat-chatgpt-hoat-dong-nhu-the-nao-2oKLnxag4QO https://viblo.asia/p/ban-chat-chatgpt-hoat-dong-nhu-the-nao-2oKLnxag4QO Phuc Phan 2023-04-17 01:19:29 <![CDATA[RLHF và cách ChatGPT hoạt động]]> https://viblo.asia/p/rlhf-va-cach-chatgpt-hoat-dong-3RlL5AEmLbB https://viblo.asia/p/rlhf-va-cach-chatgpt-hoat-dong-3RlL5AEmLbB Lộc Đinh 2023-02-17 15:21:33 <![CDATA[Hello world với Reinforcement Learning]]> https://viblo.asia/p/hello-world-voi-reinforcement-learning-djeZ17L85Wz https://viblo.asia/p/hello-world-voi-reinforcement-learning-djeZ17L85Wz Nguyen Tu Xuan Cong 2022-05-31 23:57:12 <![CDATA[Đôi điều cơ bản về học tăng cường]]> https://viblo.asia/p/doi-dieu-co-ban-ve-hoc-tang-cuong-ORNZqAYrZ0n https://viblo.asia/p/doi-dieu-co-ban-ve-hoc-tang-cuong-ORNZqAYrZ0n Nguyen Tu Xuan Cong 2022-05-31 12:34:52 <![CDATA[Một ứng dụng nho nhỏ của giải thuật di truyền trong Reinforcement Learning - Sinh chuỗi tương tự]]> https://viblo.asia/p/mot-ung-dung-nho-nho-cua-giai-thuat-di-truyen-trong-reinforcement-learning-sinh-chuoi-tuong-tu-63vKjeN652R https://viblo.asia/p/mot-ung-dung-nho-nho-cua-giai-thuat-di-truyen-trong-reinforcement-learning-sinh-chuoi-tuong-tu-63vKjeN652R Phạm Văn Toàn 2021-09-28 09:38:00 <![CDATA[Reinforcement Learning: Q-Learning]]> https://viblo.asia/p/reinforcement-learning-q-learning-63vKjO7VZ2R https://viblo.asia/p/reinforcement-learning-q-learning-63vKjO7VZ2R Long Lại Phi 2021-06-11 16:48:40 <![CDATA[Điều gì tạo nên siêu AI cờ vây AlphaGo Zero?]]> https://viblo.asia/p/dieu-gi-tao-nen-sieu-ai-co-vay-alphago-zero-maGK730xKj2 https://viblo.asia/p/dieu-gi-tao-nen-sieu-ai-co-vay-alphago-zero-maGK730xKj2 Nguyen Viet Anh 2020-10-18 01:20:57 <![CDATA[Giới thiệu về Reinforcement Learning (RL)]]> https://viblo.asia/p/gioi-thieu-ve-reinforcement-learning-rl-djeZ1GEY5Wz https://viblo.asia/p/gioi-thieu-ve-reinforcement-learning-rl-djeZ1GEY5Wz hosjiu 2019-09-22 17:24:23 <![CDATA[Giới thiệu về học tăng cường và ứng dụng Deep Q-Learning chơi game CartPole]]> https://viblo.asia/p/gioi-thieu-ve-hoc-tang-cuong-va-ung-dung-deep-q-learning-choi-game-cartpole-Az45bYy6lxY https://viblo.asia/p/gioi-thieu-ve-hoc-tang-cuong-va-ung-dung-deep-q-learning-choi-game-cartpole-Az45bYy6lxY Nguyen Viet Anh 2019-07-21 12:09:23