Pinned Posts
Độ hot của Langchain
Langchain là một framework vô cùng hot hit trong thời gian gần đây. Nó được sinh ra để tận dụng sức mạnh của các mô hình ngôn ngữ lớn LLM như ChatGPT, LLaMA... để tạo ra các ứng dụng trong thực tế. Dù mới được phát triển cách đây khoảng 6 tháng (10/2022) và vẫn được cập nhật liên tục hàng ngày nhưng trên Github Langchain đã nhận được những tương tác khủng với lượng star lê...
All posts
Cũng khá lâu rồi thì mình mới viết Viblo, một phần vì lười và cũng một phần vì có quá nhiều thứ cần cập nhật, đặc biệt là LLM khi cứ vài tuần lại có thêm một thứ mới để đọc. Nhưng lười mãi thì cũng không tốt, bài viết này sẽ giới thiệu về bài báo mình đang đọc có tên gọi "IAG: Induction-Augmented Generation Framework for Answering Reasoning Questions". Mọi người có thể đọc nội dung chi tiết của...
Hiện nay, việc làm việc với dữ liệu trên đám mây đã trở thành một phần quan trọng và phổ biến. Trong số các dịch vụ đám mây phổ biến, Amazon Web Services (AWS) S3 (Simple Storage Service) là một trong những dịch vụ lưu trữ đám mây hàng đầu. Với khả năng linh hoạt, độ tin cậy và khả năng mở rộng, S3 đã trở thành một lựa chọn phổ biến cho việc lưu trữ và quản lý dữ liệu.
Trong bài viết này, chún...
Độ hot của ChatGPT thời gian vừa rồi thì không phải bàn cãi nữa rồi, đợt này mình có thử nghiệm để nó sinh content đề bài cho một bài giải thuật để tham gia sự kiện kiếm tí quà ăn Tết xem thế nào.
Link sự kiện Viblo Contribution Event 2023 cho mọi người tham khảo và kiếm quà Tết cùng mình: https://contribution.viblo.asia/ (quà thấp nhất là 1 chiếc áo phông rất xinh, và cao nhất lên đến 3tr) ...
Việc sử dụng Python để vẽ biểu đồ không chỉ là hiệu quả mà còn là một cách thú vị để trình bày dữ liệu. Với python chúng ta có thể custom chart theo như mình mong muốn. Trong bài viết này, chúng ta sẽ khám phá một số tips hữu ích để tạo ra những biểu đồ đẹp và ấn tượng bằng Python.
Chọn thư viện phù hợp
Python cung cấp nhiều thư viện hữu ích cho việc vẽ biểu đồ, như Matplotlib, Seaborn, Plotl...
Ở 2 bài viết trước mình đã trình bày các kiến thức cơ bản về mô hình transformer. Để tiếp nối series tìm hiểu về large language model, lần này mình sẽ trình bày tổng quan về Large Language Model. Nhóm bài viết sẽ tập trung vào 4 khía cạnh chính của LLMs: pre-training, adaptation tuning, utilization, và capacity evaluation. Ở bài này, mình sẽ tập trung vào các khái niệm cơ bản của LLM và LLM pre...
Mở đầu Azure là một nền tảng đám mây thông minh, do chính Microsoft phát triển. Gần đây thì nó không còn là một khái niệm mới nữa mà đã và đang được ứng dụng rất rộng rãi trong các doanh nghiệp rồi.
Với Azure, bạn có thể biến Cloud thành "ngôi nhà thứ hai" cho ứng dụng và dịch vụ của bạn. Nó cung cấp cho bạn một cách thức dễ dàng để lưu trữ, xử lý và quản lý dữ liệu của mình. Tưởng tượng rằng ...
Title: Segment Anything in High Quality
Original Paper: https://arxiv.org/pdf/2306.01567.pdf
Code: https://github.com/SysCV/sam-hq
- Giới thiệu Gần đây, Segment Anything Model (SAM) đã đánh dấu một bước ngoặt lớn trong segmentation models. Mặc dù được huấn luyện với 1.1 tỉ mask nhưng mask prediction của SAM vẫn khá tệ trong nhiều trường hợp, đặc biệt là khi xử lý với những object mà có cấu...
I. Mở đầu: Việc đưa các các hệ thống học máy vào trong y tế nhằm giúp các bác sĩ hay các chuyên gia y tế chuẩn đoán chính xác đang dần trở lên phổ biến hơn. Đặc biệt là phải nhắc đến nội soi trực tràng nhằm phát hiện các khối u bất thường, điều này cực kỳ quan trọng khi giúp phát hiện và loại bỏ các khối u ra khỏi cơ thể tránh chúng phát triển thành ung thư. Việc các khối u có hình dáng, kích t...
Sự nổi dậy của chat GPT và các mô hình ngôn ngữ lớn (Large Languae Model - LLM) đã thu hút được sự quan tâm lớn của công chúng. Chỉ trong 5 năm, các mô hình ngôn ngữ lớn - Transformer đã biến đổi gần như hoàn toàn lĩnh vực xử lý ngôn ngữ tự nhiên. Ngoài ra, chúng đang bắt đầu lấn sân các lĩnh vực như thị giác máy tính và sinh học tính toán. Mình cũng mới bắt đầu tìm hiểu LLM, nên mình sẽ cố gắn...
Lời mở đầu Lâu lắm rồi mới quay lại viết bài 🥲. Thôi vào đề luôn đi.
Việc chụp một bức ảnh đẹp thường bị ảnh hưởng bởi rất nhiều yếu tố: thiết bị di động, khung cảnh, góc chụp, khoảng cách, thời điểm. Nếu trong một ngày mà bạn không may mắn thì chất lượng ảnh của bạn sẽ rất ba chấm: mờ, giật, nhiễu, v.v...
Hồi phục một bức ảnh mang ý nghĩa là gia tăng chất lượng cũng như độ chân thực của ảnh....
Gần đây, sự phát triển của các mô hình ngôn ngữ lớn đã mở đường cho những tiến bộ vượt bậc trong lĩnh vực xử lý ngôn ngữ tự nhiên cũng như đẩy mạnh việc ứng dụng AI tạo sinh vào cuộc sống. Tuy nhiên, những mô hình mạnh mẽ này cũng đi kèm với một số thách thức cần phải giải quyết. Một trong những vấn đề lớn là hiện tượng "hallucination" - ảo giác, tức việc LLM tạo ra các thông tin không chính xá...
Instruction finetuning Việc có một mô hình ngôn ngữ (LM) có khả năng generalize tốt (trong quá khứ) thì khá là khó. Ta đã có thể train instance-level generalize model một cách khá ổn. Tức là, ta sẽ train một model thực hiện mapping input sang output trong task : với . Và khi thực hiện test thì ta sẽ test trên các instance với cùng task .
Tuy nhiên, một LM mạnh, như đã nói, thì cần phải có...
Hiện nay, các công cụ Vector Search Engine như Elastic Search, Azure Cognitive Search vừa lưu trữ data vừa có tính năng search trong khi các Vector database như supabase,... cũng hỗ trợ cả hai tính năng đó. Điều này đôi khi khiến chúng ta khó phân biệt giữa hai khái niệm này. Trong chuỗi bài viết này, mình sẽ cùng các bạn tìm hiểu về hai khái niệm này cũng như phân biệt giữa chúng.
A. Một số ...
Dữ liệu đồ thị chắc hẳn các bạn đã và đang tìm hiểu về học sâu và học máy cũng đã từng nghe qua khái niệm và các bài toán về đồ thị. Nhưng không có quá nhiều bạn thực sự hiểu và triển khai các bài toán trên dữ liệu đồ thị một các hiệu quả. Vậy nên việc hiểu về cách mà các mô hình học sâu được xây dựng trên dữ liệu đồ thị hoạt động như thế nào và triển khai một bài toán đơn giản trên dữ liệu đồ ...
Xin chào mọi người, hôm nay mình sẽ viết bài tìm hiểu về việc kết hợp sử dụng SQL trong pandas như thế nào. Việc sử dụng kết hợp SQL và Pandas còn giúp tăng hiệu năng cho các Data Scientist
Khi kết hợp sử dụng SQL và Pandas, bạn có thể tận dụng sức mạnh của SQL để truy vấn và lọc dữ liệu từ cơ sở dữ liệu một cách hiệu quả, sau đó sử dụng Pandas để thực hiện các phân tích, biến đổi và tạo các ...
Mình sẽ phải mở đầu bài này bằng một câu khen: Đây là một paper cực kì tuyệt vời! Lần đầu tiên mình có thể đem áp dụng ngay một paper ngay khi nó mới ra mắt và đạt được kết quả cực kì tốt. (Gần) Đúng như ở tiêu đề, mình đã có thể fine-tune mô hình 7 tỷ, 13 tỷ và 33 tỷ tham số với 2 con RTX 3090. Đáng nói là mô hình 7 tỷ tham số chỉ chiếm 4-5Gb/GPU, tức là ~10Gb, hoàn toàn có thể training trên G...
Phân tích dữ liệu được sử dụng để khám phá dữ liệu, trích xuất thông tin chi tiết và hành động dựa trên những thông tin chi tiết đó. Phân tích dữ liệu bao gồm nhiều hoạt động, mỗi hoạt động có trọng tâm và mục tiêu riêng. Lĩnh vực phân tích dữ liệu thường được chia thành bốn loại chính: phân tích mô tả, phân tích chẩn đoán, phân tích dự đoán và phân tích theo quy định. Loại thứ năm, phân tích t...
Lời giới thiệu
Xin chào tất cả các bạn, đã lâu lắm rồi kể từ sau bài viết về Trải lòng sau khi đọc GPT-4 Technical Report của OpenAI - các bác nên đổi tên công ty đi mình không có viết bài về LLM nữa. Không phải vì mình không còn quan tâm đến lĩnh vực này mà bởi vì một phần mình chưa thực sự gặp được một LLM nào đủ hay về mặt kĩ thuật để chia sẻ đến tất cả mọi người, một phần vì mình đang tập ...
Fine-tuning là gì? Trong Machine Learning, Fine-tuning là một phương pháp của transfer learning, sử dụng weight của một pre-trained model để train với một bộ data mới, phù hợp với mục đích của người dùng và số lượng dataset thường nhỏ hơn khi pre-train. Việc làm này giúp tăng độ chính xác của model so với việc train trực tiếp với bộ dataset nhỏ của chúng ta. Thông thường, khi thực hiện fine-tun...
Giới thiệu
- Vấn đề đặt ra: hệ thống phân tích dữ liệu của doanh nghiệp thường bao gồm một số dịch vụ sử dụng các định dạng dữ liệu độc quyền do các dịch vụ này được cung cấp từ các nhà cung cấp khác nhau. Điều này làm cho việc tích hợp trở nên phức tạp, tốn thời gian và chi phí, và các hệ thống kết quả thường rất dễ hỏng.
- Vào ngày 23/5/2023 vừa qua, một giải pháp mới của Microsoft ra đời: M...