Image Cover
Avatar

Sun* AI Research Team

level partner

Silver Content Creator

We're AI Research Team of R&D Lab @Sun Asterisk .Inc

Pinned Posts

Độ hot của Langchain

Langchain là một framework vô cùng hot hit trong thời gian gần đây. Nó được sinh ra để tận dụng sức mạnh của các mô hình ngôn ngữ lớn LLM như ChatGPT, LLaMA... để tạo ra các ứng dụng trong thực tế. Dù mới được phát triển cách đây khoảng 6 tháng (10/2022) và vẫn được cập nhật liên tục hàng ngày nhưng trên Github Langchain đã nhận được những tương tác khủng với lượng star lê...

Mayfest2023 ContentCreator
11.9K
53
22 8

All posts

Thumbnail Image
1.2K
5
0 0
Avatar Pham Thi Hong Anh Jul 26th, 2023 4:27 a.m.
17 min read

Descriptive Analytics - Phân tích mô tả là gì?

Phân tích dữ liệu được sử dụng để khám phá dữ liệu, trích xuất thông tin chi tiết và hành động dựa trên những thông tin chi tiết đó. Phân tích dữ liệu bao gồm nhiều hoạt động, mỗi hoạt động có trọng tâm và mục tiêu riêng. Lĩnh vực phân tích dữ liệu thường được chia thành bốn loại chính: phân tích mô tả, phân tích chẩn đoán, phân tích dự đoán và phân tích theo quy định. Loại thứ năm, phân tích t...

Thumbnail Image
7.4K
53
18 9
Avatar Phạm Văn Toàn Jul 23rd, 2023 2:23 a.m.
37 min read

Tất tần tật về LLaMA-2 - liệu có đủ làm nên một cuộc cách mạng mới

Lời giới thiệu

Xin chào tất cả các bạn, đã lâu lắm rồi kể từ sau bài viết về Trải lòng sau khi đọc GPT-4 Technical Report của OpenAI - các bác nên đổi tên công ty đi mình không có viết bài về LLM nữa. Không phải vì mình không còn quan tâm đến lĩnh vực này mà bởi vì một phần mình chưa thực sự gặp được một LLM nào đủ hay về mặt kĩ thuật để chia sẻ đến tất cả mọi người, một phần vì mình đang tập ...

Thumbnail Image
6.2K
24
5 9
Avatar Nguyen Mai Jun 23rd, 2023 7:38 a.m.
10 min read

Fine-tuning một cách hiệu quả và thân thiện với phần cứng: Adapters và LoRA

Fine-tuning là gì? Trong Machine Learning, Fine-tuning là một phương pháp của transfer learning, sử dụng weight của một pre-trained model để train với một bộ data mới, phù hợp với mục đích của người dùng và số lượng dataset thường nhỏ hơn khi pre-train. Việc làm này giúp tăng độ chính xác của model so với việc train trực tiếp với bộ dataset nhỏ của chúng ta. Thông thường, khi thực hiện fine-tun...

Thumbnail Image
1.2K
5
1 0
Avatar Trung Đức Jun 14th, 2023 8:56 a.m.
11 min read

Microsoft Fabric - Vừa mới vừa "cũ"

Giới thiệu

  • Vấn đề đặt ra: hệ thống phân tích dữ liệu của doanh nghiệp thường bao gồm một số dịch vụ sử dụng các định dạng dữ liệu độc quyền do các dịch vụ này được cung cấp từ các nhà cung cấp khác nhau. Điều này làm cho việc tích hợp trở nên phức tạp, tốn thời gian và chi phí, và các hệ thống kết quả thường rất dễ hỏng.
  • Vào ngày 23/5/2023 vừa qua, một giải pháp mới của Microsoft ra đời: M...
Thumbnail Image
3.2K
10
3 5
Avatar Trung Đức Jun 13th, 2023 10:42 a.m.
9 min read

Cứ thực hành Airflow dễ hiểu và đơn giản đã, chưa làm gì phức tạp cả

Mở đầu Tiếp nối bài viết chỉ toàn lý thuyết Bài viết về Airflow cho người mới như mình thì chúng ta đi ngay tới bài thực hành này thôi

Chú ý là mình sẽ thực hành cùng với Python nhé ạ, bài viết sẽ gồm 2 phần thực hành chính

  • Thực hành với các tác vụ đơn giản
  • Thực hành với bài toán đào tạo mô hình Deep Learning

Cài đặt môi trường

  • Trong bài viết của anh Hoàng, có đề cập tới việc setup nhan...
Thumbnail Image
5.3K
9
5 0
Avatar Trung Đức Jun 13th, 2023 10:42 a.m.
12 min read

Bài viết về Airflow cho người mới như mình

Mở đầu Lướt dạo một vòng thì bài viết Airflow trên Viblo cũng có một số bài tương đối chi tiết như Tất tần tật về Airflow (P1) của anh Hoàng hay Một số điểm cần lưu ý khi sử dụng Airflow - Phần 1 của bạn Trung. Các bạn có thể đọc để hiểu hơn về Airflow

Đứng trên phương diện một người mới (đúng nghĩa, chưa từng làm việc với nó) thì bài viết này, mình rất mong muốn có thể vừa để lưu lại kiến thứ...

Thumbnail Image
797
6
3 0
Avatar Trung Đức Jun 5th, 2023 7:39 a.m.
13 min read

ETL vs ELT không đơn giản chỉ là LT và TL?

Giới thiệu Một trong những việc mà những người làm việc với Data cần làm, đặc biệt là Data Engineering, cần quan tâm đó là việc trích xuất dữ liệu từ nhiều nguồn, đổ về một chỗ (Data Warehouse, Data Lake, ...), để lưu trữ và phân tích dữ liệu. Chúng ta có thể gọi nó là Data Pipeline. Để hiểu hơn về nó, trước hết chúng ta cùng đi trao đổi về ETL và ELT nào. Lẹt doit E-T-L là gì đã? Extract

  • Kha...
Thumbnail Image
1.9K
25
8 2
Avatar Bui Tien Tung May 31st, 2023 11:17 a.m.
19 min read

Lightweight Fine-Tuning: Một hướng đi cho những người làm AI trong kỉ nguyên của các Super Large Models (Phần 2)

Note: Tiêu đề và nội dung của bài viết này được lấy cảm hứng từ bài viết của sếp mình: "Hướng đi nào cho những người làm AI trong kỉ nguyên của các Super Large Models?". Recommend các bạn nên đọc để tìm thêm những hướng phát triển trong tương lai (nếu các bạn là AI Engineer).

Nếu các bạn chưa đọc phần 1, có thể bắt đầu từ link này trước để có một cái nhìn tổng quan nhất: Lightweight Fine-Tunin...

Thumbnail Image
5.9K
23
11 1
Avatar Thao Hoang Thu May 22nd, 2023 1:31 p.m.
19 min read

Bạn đã biết gì về prompt engineering? - Tổng hợp các tips tạo lời nhắc cho ChatGPT

Chắc thời gian qua các bạn cũng đã bắt gặp những bài viết với tiêu đề như "Kỹ sư tạo lời nhắc cho chatbot AI có thể kiếm 7,86 tỉ đồng/năm mà không cần bằng cấp công nghệ", hay "How to Get a Six-Figure Job as an AI Prompt Engineer". Vậy bạn có từng tự hỏi, chính xác thì kỹ sư tạo lời nhắc (prompt engineer) là làm cái gì?

Có thể so sánh như này, nếu mô hình ngôn ngữ lớn (LLM) như ChatGPT là sức ...

Thumbnail Image
510
3
0 6
Avatar Pham Thi Hong Anh May 21st, 2023 4:32 p.m.
5 min read

Pandas 2.0 có gì mới?

Xin chào các bạn Pandas cũng đã cập nhật lên bản 2.0 một thời gian rồi, ở bài viết này mình sẽ viết bài review xem có khác biệt gì với version cũ không nhé. Ok chúng ta cùng bắt đầu thôi nào...

Upgrade pandas 2.0 Việc đầu tiên chúng ta cần làm là update lên pandas 2.0

Nâng cao hiệu suất

Pandas 2.0 cải thiện hiệu suất, fixbug và hoạt động hiệu quả hơn. Dựa vào việc sủ dụng Apacge Arrow - một ...

Thumbnail Image
1.6K
11
3 4
Avatar Nguyễn Văn Quân May 19th, 2023 2:15 a.m.
15 min read

[Từ Transformer Đến Language Model] Bài 2: Kiến trúc và phương pháp Generative-Pretraining của GPT model

Tiếp nối series kiến thức nền tảng của large language model. Ở Bài 1: Bắt đầu với kiến trúc mô hình - Transformer, mình đã giới thiệu với các bạn về kiến trúc khởi nguồn của large language model - transformer. Trong phần này chúng ta sẽ tiếp tục đi sâu vào những thay đổi về mặt mô hình và phương pháp training unsupervised hiệu quả của language model thông qua lý thuyết và ví dụ code đơn giản mô...

Thumbnail Image
917
9
0 0
Avatar Pham Thi Hong Anh May 16th, 2023 7:36 a.m.
5 min read

Visualize data chọn biểu đồ như thế nào cho hợp lý?

Hello mọi người, để tiếp tục chuỗi series khóa học Statistics with python, mình sẽ viết tiếp bài viết tóm tắt tuần thứ 3 của khóa học. Ở bài trước mình viết về kiến thức thống kê cơ bản. ở bài này mình sẽ viết về trực quan hóa các loại dữ liệu và làm sao để lựa chọn biểu đồ cho phù hợp. Nào chúng ta cùng bắt đầu nhé 😄

Như các bạn cũng biết mục đích cuả trực quan hóa dữ liệu là để cho người ng...

Thumbnail Image
333
12
3 0
Avatar Trinh Quang Huy May 14th, 2023 11:11 a.m.
39 min read

"Nguyên tắc và Đạo đức" trong phát triển AI, đã đến lúc chúng ta cần quan tâm

Mở đầu Sự phát triển nhanh chóng của trí tuệ nhân tạo (AI) đã mang lại những thay đổi mang tính cách mạng cho nhiều ngành công nghiệp khác nhau, định hình lại cách chúng ta tương tác với công nghệ hàng ngày. Từ chăm sóc sức khỏe, tài chính hay đến giáo dục. Tuy nhiên, với tốc độ phát triển ngày càng nhanh, điển hình như trong thời gian gần đây với sự trỗi dậy của các mô hình Super Large Model đ...

Thumbnail Image
2.8K
15
4 3
Avatar Nguyễn Văn Quân May 10th, 2023 7:06 a.m.
20 min read

[Từ Transformer Đến Language Model] Bài 1: Bắt đầu với kiến trúc mô hình - Transformer

Chỉ trong vòng vài tháng trở lại đây, thế giới công nghệ đã bị khuynh đảo bởi các mô hình AI như ChatGPT, GPT-4, DALLE-2, Midjourney... Các mô hình AI đã và đang thực sự thay đổi cách thế giới này vận hành, rất nhiều những job title sống dựa vào các ứng dụng AI được sinh ra, đồng thời cũng rất nhiều những công việc khác dần bị loại bỏ. Nếu không nhanh nhạy và kịp thích ứng, thậm chí đến những A...

Thumbnail Image
159
5
0 0
Avatar Đặng Hồng Thanh May 9th, 2023 8:23 a.m.
6 min read

[Paper Explained] Boostrapping Semantic Segmentation with Regional Contrast (ReCo)

  1. Giới thiệu ReCo (Regional Contrast) là một pixel-level Contrastive framework định nghĩa một làm loss mới giúp cho semantic segmentation không những học từ local context (những pixel lân cận) mà còn học từ global context từ toàn bộ dataset (semantic class relationships). Reco được sử dụng để hỗ trợ cả học giám sát và học không giám sát. Với mỗi class xuất hiện trong 1 mini-batch, ReCo sẽ lấy ...
Thumbnail Image
2.7K
36
19 2
Avatar Bui Tien Tung May 8th, 2023 8:02 a.m.
22 min read

Lightweight Fine-Tuning: Một hướng đi cho những người làm AI trong kỉ nguyên của các Super Large Models (Phần 1)

Note: Tiêu đề và nội dung của bài viết này được lấy cảm hứng từ bài viết của sếp mình: "Hướng đi nào cho những người làm AI trong kỉ nguyên của các Super Large Models?". Recommend các bạn nên đọc để tìm thêm những hướng phát triển trong tương lai (nếu các bạn là AI Engineer).

Tất nhiên, khi sếp đã đặt vấn đề thì mình cũng muốn viết 1 bài để phân tích sâu thêm một số khía cạnh, trường hợp ở đây...

Thumbnail Image
11.9K
53
22 8
Avatar Phạm Văn Toàn May 7th, 2023 6:13 a.m.
27 min read

Langchain #1 - Điểm qua các chức năng sừng sỏ nhất của Langchain - một framework cực bá đạo khi làm việc với LLM

Độ hot của Langchain

Langchain là một framework vô cùng hot hit trong thời gian gần đây. Nó được sinh ra để tận dụng sức mạnh của các mô hình ngôn ngữ lớn LLM như ChatGPT, LLaMA... để tạo ra các ứng dụng trong thực tế. Dù mới được phát triển cách đây khoảng 6 tháng (10/2022) và vẫn được cập nhật liên tục hàng ngày nhưng trên Github Langchain đã nhận được những tương tác khủng với lượng star lê...

Mayfest2023 ContentCreator
Thumbnail Image
271
4
0 0
Avatar Nguyen Tung Thanh May 5th, 2023 10:05 a.m.
7 min read

[Paper Explain] Label-Efficient Semantic Segmentation with Diffusion Models: Tính discriminative của mô hình generative

Lời mở đầu DIffusion thì đã quá nổi tiếng với những task sinh ảnh từ text rồi. Trong bài này, mình sẽ giới thiệu về một nghiên cứu liên quan đến tính discriminative trong mô hình sinh để có thể ứng dụng của nó vào việc giải quyết các bài toán discriminative. Đó là paper: Label-Efficient Semantic Segmentation with Diffusion Models, được publish tại ICLR2022.

Với các bạn chưa có background về mô...

Thumbnail Image
201
5
0 0
Avatar Hieu Bui May 5th, 2023 9:19 a.m.
7 min read

Cơ bản về fastai (P2) - DataBlock API

TIếp nối bài viết lần trước về các tính năng mì ăn liền của fastai, trong bài viết hôm nay, mình sẽ giới thiệu cho các bạn về để xử lý dữ liệu và hệ thống callback của fastai. Let's get started.

DataBlock API Thư viện fastai được thiết kế theo kiểu phân tầng. Ở trên cùng là tầng applications cho phép chúng ta train mô hình chỉ với vài dòng code như đã thấy ở bài viết trước.

Ví dụ để tạo Da...

Mayfest2023 ContentCreator
Thumbnail Image
1.0K
12
0 0
Avatar Nguyen Mai May 5th, 2023 9:17 a.m.
14 min read

[Paper Explain] YOLOF: Lời tạm biệt cho multi-scale features trong Object Detection?

Ôn lại kiến thức Multi-scale features là gì và tại sao chúng lại cần thiết cho Object Detection? Lấy ví dụ về một mạng Object Detection khá phổ biến: YOLO. Như đã biết, điểm yếu của YOLO hồi mới ra mắt đó chính là khả năng phát hiện vật thể nhỏ cực kì kém. Đó là vì YOLO đã không tận dụng được Multi-scale features. YOLOv1 thực hiện đưa ra kết quả dự đoán Bounding Box (BBox) và Class dựa trên fea...

Featured member
Viblo
Let's register a Viblo Account to get more interesting posts.