<?xml version="1.0" encoding="UTF-8" ?>
<rss
    version="2.0"
    xmlns:atom="http://www.w3.org/2005/Atom"
    xmlns:content="http://purl.org/rss/1.0/modules/content/"
    xmlns:webfeeds="http://webfeeds.org/rss/1.0"
    xmlns:media="http://search.yahoo.com/mrss/"
    >
    <channel>
        <title>Reinforcement-learning Tag - Viblo</title>
        <link>https://viblo.asia/rss</link>
        <description><![CDATA[Free service for technical knowledge sharing]]></description>
        <atom:link href="https://viblo.asia/rss/tags/reinforcement-learning.rss" rel="self"></atom:link>
                <copyright>Sun* Inc.</copyright>
                                                <webfeeds:logo>https://viblo.asia/logo_full.svg</webfeeds:logo>
        <image>
            <url>https://viblo.asia/logo_full.svg</url>
            <title>Reinforcement-learning Tag - Viblo</title>
            <link>https://viblo.asia/rss</link>
        </image>
                                <language>vi-vn</language>
        <lastBuildDate>2026-04-10T03:13:13+07:00</lastBuildDate>
                <item>
            <title><![CDATA[Tôi không train model. Nhưng tôi bắt đầu kiểm soát được hành vi của nó (Nắng AI v47)]]></title>
                        <link>https://viblo.asia/p/toi-khong-train-model-nhung-toi-bat-dau-kiem-soat-duoc-hanh-vi-cua-no-nang-ai-v47-gjLN0N8W432</link>
            <guid isPermaLink="true">https://viblo.asia/p/toi-khong-train-model-nhung-toi-bat-dau-kiem-soat-duoc-hanh-vi-cua-no-nang-ai-v47-gjLN0N8W432</guid>
            <description><![CDATA[Tôi không train model. Nhưng tôi bắt đầu kiểm soát được hành vi của nó.

Ở bài trước (Sunny AI lv5), tôi đã build một autonomous agent:

- Tự chia tas...]]></description>
                        <dc:creator xmlns:dc="http://purl.org/dc/elements/1.1/">Long Hoàng</dc:creator>
            <pubDate>2026-03-30 09:12:46</pubDate>
                                                                                                        </item>
                <item>
            <title><![CDATA[[Papers Notes] RL IN NAME ONLY? ANALYZING THE STRUCTURAL  ASSUMPTIONS IN RL POST-TRAINING FOR LLMS]]></title>
                        <link>https://viblo.asia/p/papers-notes-rl-in-name-only-analyzing-the-structural-assumptions-in-rl-post-training-for-llms-Yym40GpoV91</link>
            <guid isPermaLink="true">https://viblo.asia/p/papers-notes-rl-in-name-only-analyzing-the-structural-assumptions-in-rl-post-training-for-llms-Yym40GpoV91</guid>
            <description><![CDATA[Trong quá trình tìm hiểu về việc sử dụng RL trong quá trình post-training của LLM, có khá nhiều thắc mắc cũng như vấn đề mà mình suy nghĩ đến liên qua...]]></description>
                        <dc:creator xmlns:dc="http://purl.org/dc/elements/1.1/">Dương Xuân Bách</dc:creator>
            <pubDate>2025-05-23 23:15:08</pubDate>
                                                                                                        </item>
                <item>
            <title><![CDATA[[Advanced-LLM] Reasoning LLM và Những Điều Thú Vị Mà Có Thể Bạn Đã Biết Phần 2.]]></title>
                        <link>https://viblo.asia/p/advanced-llm-reasoning-llm-va-nhung-dieu-thu-vi-ma-co-the-ban-da-biet-phan-2-aAY4q3GyLPw</link>
            <guid isPermaLink="true">https://viblo.asia/p/advanced-llm-reasoning-llm-va-nhung-dieu-thu-vi-ma-co-the-ban-da-biet-phan-2-aAY4q3GyLPw</guid>
            <description><![CDATA[Nếu bạn thấy hay, hãy upvote và bookmark cho mình nhé, chỉ đơn giản là động lực nhỏ để mình ngồi đọc và chia sẻ cùng mọi người những điều hay ho khi n...]]></description>
                        <dc:creator xmlns:dc="http://purl.org/dc/elements/1.1/">Hoàng Minh An</dc:creator>
            <pubDate>2025-05-17 17:14:10</pubDate>
                                                                                                        </item>
                <item>
            <title><![CDATA[Nhập môn Reinforcement Learning: Tabular Methods.]]></title>
                        <link>https://viblo.asia/p/nhap-mon-reinforcement-learning-tabular-methods-E1XVObjpLMz</link>
            <guid isPermaLink="true">https://viblo.asia/p/nhap-mon-reinforcement-learning-tabular-methods-E1XVObjpLMz</guid>
            <description><![CDATA[

Trong phần này, chúng ta sẽ đi vào ý tưởng thuần của RL trong trạng thái cơ bản nhất, khi mà state và action space đủ để các values có thể lưu trữ v...]]></description>
                        <dc:creator xmlns:dc="http://purl.org/dc/elements/1.1/">Trần Đăng An</dc:creator>
            <pubDate>2024-08-09 13:36:46</pubDate>
                                                                                                        </item>
                <item>
            <title><![CDATA[Nhập môn Reinforcement Learning: Ứng dụng ,những điều cần biết và những lý thuyết cơ bản.]]></title>
                        <link>https://viblo.asia/p/nhap-mon-reinforcement-learning-ung-dung-nhung-dieu-can-biet-va-nhung-ly-thuyet-co-ban-yZjJYKGzVOE</link>
            <guid isPermaLink="true">https://viblo.asia/p/nhap-mon-reinforcement-learning-ung-dung-nhung-dieu-can-biet-va-nhung-ly-thuyet-co-ban-yZjJYKGzVOE</guid>
            <description><![CDATA[
Đôi nét về tác giả.

Tôi là Trần An đến từ SmartLab FPT University, hiện thời khi viết bài viết này đang là sinh viên năm cuối và có 2 năm kinh nghiệ...]]></description>
                        <dc:creator xmlns:dc="http://purl.org/dc/elements/1.1/">Trần Đăng An</dc:creator>
            <pubDate>2024-07-30 23:48:48</pubDate>
                                                                                                        </item>
                <item>
            <title><![CDATA[RLHF &amp; DPO: Kỹ thuật mới đơn giản hơn, tăng cường khả năng Fine-tuning cho Large language models]]></title>
                        <link>https://viblo.asia/p/rlhf-dpo-ky-thuat-moi-don-gian-hon-tang-cuong-kha-nang-fine-tuning-cho-large-language-models-zXRJ8bnZVGq</link>
            <guid isPermaLink="true">https://viblo.asia/p/rlhf-dpo-ky-thuat-moi-don-gian-hon-tang-cuong-kha-nang-fine-tuning-cho-large-language-models-zXRJ8bnZVGq</guid>
            <description><![CDATA[RLHF là gì?

Reinforcement Learning from Human Feedback (RLHF) là một phương pháp mới, tiên tiến trong lĩnh vực Trí tuệ nhân tạo (AI) được nổi lên với...]]></description>
                        <dc:creator xmlns:dc="http://purl.org/dc/elements/1.1/">Phuc Phan</dc:creator>
            <pubDate>2023-12-13 18:51:24</pubDate>
                                                                                                        </item>
                <item>
            <title><![CDATA[Bản chất ChatGPT hoạt động như thế nào?]]></title>
                        <link>https://viblo.asia/p/ban-chat-chatgpt-hoat-dong-nhu-the-nao-2oKLnxag4QO</link>
            <guid isPermaLink="true">https://viblo.asia/p/ban-chat-chatgpt-hoat-dong-nhu-the-nao-2oKLnxag4QO</guid>
            <description><![CDATA[ChatGPT: bản chất ChatGPT hoạt động như thế nào?

Source: https://phanxuanphucnd.github.io/

ChatGPT là một Large Language Model (LLM) mới nhất của Op...]]></description>
                        <dc:creator xmlns:dc="http://purl.org/dc/elements/1.1/">Phuc Phan</dc:creator>
            <pubDate>2023-04-17 01:19:29</pubDate>
                                                                                                        </item>
                <item>
            <title><![CDATA[RLHF và cách ChatGPT hoạt động]]></title>
                        <link>https://viblo.asia/p/rlhf-va-cach-chatgpt-hoat-dong-3RlL5AEmLbB</link>
            <guid isPermaLink="true">https://viblo.asia/p/rlhf-va-cach-chatgpt-hoat-dong-3RlL5AEmLbB</guid>
            <description><![CDATA[Cũng là một chủ đề liên quan đến ChatGPT, nhưng lần này lại thuần về công nghệ thôi.

Hôm nay thì mình sẽ nói về kỹ thuật giúp cho ChatGPT thành công ...]]></description>
                        <dc:creator xmlns:dc="http://purl.org/dc/elements/1.1/">Lộc Đinh</dc:creator>
            <pubDate>2023-02-17 15:21:33</pubDate>
                                                                                                        </item>
                <item>
            <title><![CDATA[Hello world với Reinforcement Learning]]></title>
                        <link>https://viblo.asia/p/hello-world-voi-reinforcement-learning-djeZ17L85Wz</link>
            <guid isPermaLink="true">https://viblo.asia/p/hello-world-voi-reinforcement-learning-djeZ17L85Wz</guid>
            <description><![CDATA[Xin chào các bạn. Tiếp nối series về Reinforcement Learning (RL), hôm nay mình xin giới thiệu một ví dụ đơn giản có thể coi như là "Hello world" của R...]]></description>
                        <dc:creator xmlns:dc="http://purl.org/dc/elements/1.1/">Nguyen Tu Xuan Cong</dc:creator>
            <pubDate>2022-05-31 23:57:12</pubDate>
                                                                                                        </item>
                <item>
            <title><![CDATA[Đôi điều cơ bản về học tăng cường]]></title>
                        <link>https://viblo.asia/p/doi-dieu-co-ban-ve-hoc-tang-cuong-ORNZqAYrZ0n</link>
            <guid isPermaLink="true">https://viblo.asia/p/doi-dieu-co-ban-ve-hoc-tang-cuong-ORNZqAYrZ0n</guid>
            <description><![CDATA[1. Giới thiệu

Ắt hẳn các bạn đang đọc đã từng biết đến ít nhất một môn cờ (cờ caro, cờ vua, cờ tướng, cờ vây, ...). Mỗi một môn cờ có những luật chơi...]]></description>
                        <dc:creator xmlns:dc="http://purl.org/dc/elements/1.1/">Nguyen Tu Xuan Cong</dc:creator>
            <pubDate>2022-05-31 12:34:52</pubDate>
                                                                                                        </item>
                <item>
            <title><![CDATA[Một ứng dụng nho nhỏ của giải thuật di truyền trong Reinforcement Learning - Sinh chuỗi tương tự]]></title>
                        <link>https://viblo.asia/p/mot-ung-dung-nho-nho-cua-giai-thuat-di-truyen-trong-reinforcement-learning-sinh-chuoi-tuong-tu-63vKjeN652R</link>
            <guid isPermaLink="true">https://viblo.asia/p/mot-ung-dung-nho-nho-cua-giai-thuat-di-truyen-trong-reinforcement-learning-sinh-chuoi-tuong-tu-63vKjeN652R</guid>
            <description><![CDATA[Lời mở đầu
Xin chào các bạn. Chắc hẳn chúng ta đã không còn xa lạ gì với những thuật toán Reinforcement Learning sử dụng Deep Learning rồi phải không....]]></description>
                        <dc:creator xmlns:dc="http://purl.org/dc/elements/1.1/">Phạm Văn Toàn</dc:creator>
            <pubDate>2021-09-28 09:38:00</pubDate>
                                                                                                        </item>
                <item>
            <title><![CDATA[Reinforcement Learning: Q-Learning]]></title>
                        <link>https://viblo.asia/p/reinforcement-learning-q-learning-63vKjO7VZ2R</link>
            <guid isPermaLink="true">https://viblo.asia/p/reinforcement-learning-q-learning-63vKjO7VZ2R</guid>
            <description><![CDATA[Introduction

Trong một vài năm trở lại đây, chúng ta đã có những bước tiến dài cùng với các mô hình Deep Learning. Các mô hình này đã giúp chúng ta t...]]></description>
                        <dc:creator xmlns:dc="http://purl.org/dc/elements/1.1/">Long Lại Phi</dc:creator>
            <pubDate>2021-06-11 16:48:40</pubDate>
                                                                                                        </item>
                <item>
            <title><![CDATA[Điều gì tạo nên siêu AI cờ vây AlphaGo Zero?]]></title>
                        <link>https://viblo.asia/p/dieu-gi-tao-nen-sieu-ai-co-vay-alphago-zero-maGK730xKj2</link>
            <guid isPermaLink="true">https://viblo.asia/p/dieu-gi-tao-nen-sieu-ai-co-vay-alphago-zero-maGK730xKj2</guid>
            <description><![CDATA[Giới thiệu

Vào năm 2017, trí tuệ nhân tạo AlphaGo Zero (AGZ) do Deepmind phát triển đã đánh bại cao thủ cờ vây Lee Sedol (người đã từng 18 lần vô địc...]]></description>
                        <dc:creator xmlns:dc="http://purl.org/dc/elements/1.1/">Nguyen Viet Anh</dc:creator>
            <pubDate>2020-10-18 01:20:57</pubDate>
                                                                                                        </item>
                <item>
            <title><![CDATA[Giới thiệu về Reinforcement Learning (RL)]]></title>
                        <link>https://viblo.asia/p/gioi-thieu-ve-reinforcement-learning-rl-djeZ1GEY5Wz</link>
            <guid isPermaLink="true">https://viblo.asia/p/gioi-thieu-ve-reinforcement-learning-rl-djeZ1GEY5Wz</guid>
            <description><![CDATA[Trong lĩnh vực trí tuệ nhân tạo nói chung và lĩnh vực học máy nói riêng thì Reinforcement learing (RL) là một cách tiếp cận tập trung vào việc học để ...]]></description>
                        <dc:creator xmlns:dc="http://purl.org/dc/elements/1.1/">hosjiu</dc:creator>
            <pubDate>2019-09-22 17:24:23</pubDate>
                                                                                                        </item>
                <item>
            <title><![CDATA[Giới thiệu về học tăng cường và ứng dụng Deep Q-Learning chơi game CartPole]]></title>
                        <link>https://viblo.asia/p/gioi-thieu-ve-hoc-tang-cuong-va-ung-dung-deep-q-learning-choi-game-cartpole-Az45bYy6lxY</link>
            <guid isPermaLink="true">https://viblo.asia/p/gioi-thieu-ve-hoc-tang-cuong-va-ung-dung-deep-q-learning-choi-game-cartpole-Az45bYy6lxY</guid>
            <description><![CDATA[Giới thiệu

Học tăng cường (Reinforcement Learning-RL) là một trong ba kiểu học máy chính bên cạnh học giám sát (Supervised Learning) và học không giá...]]></description>
                        <dc:creator xmlns:dc="http://purl.org/dc/elements/1.1/">Nguyen Viet Anh</dc:creator>
            <pubDate>2019-07-21 12:09:23</pubDate>
                                                                                                        </item>
            </channel>
</rss>
