Image Cover
Avatar

Sun* AI Research Team

level partner

Silver Content Creator

We're AI Research Team of R&D Lab @Sun Asterisk .Inc

Pinned Posts

Độ hot của Langchain

Langchain là một framework vô cùng hot hit trong thời gian gần đây. Nó được sinh ra để tận dụng sức mạnh của các mô hình ngôn ngữ lớn LLM như ChatGPT, LLaMA... để tạo ra các ứng dụng trong thực tế. Dù mới được phát triển cách đây khoảng 6 tháng (10/2022) và vẫn được cập nhật liên tục hàng ngày nhưng trên Github Langchain đã nhận được những tương tác khủng với lượng star lê...

Mayfest2023 ContentCreator
11.9K
53
22 8

All posts

Thumbnail Image
1.2K
24
9 10
Avatar Phạm Văn Toàn Jun 1st, 3:08 p.m.
33 min read

Bí kí võ công thượng thừa giúp cải tiến ứng dụng Retrieval Augmented Generation (RAG)

Lời nói đầu Xin chào các bạn, lâu lắm rồi mình mới có viết một bài viết mới, rất hi vọng là các bạn vẫn còn nhớ đến mình. Dạo gần đây với sự phát triển bùng nổ của các loại LLM khác nhau thì các ứng dụng RAG. - Retrieval Augmented Generation (RAG) cũng nổi lên như một kĩ thuật thượng thừa khi làm việc với các LLM. Ưu điểm của RAG thì không phải bàn cãi nữa rồi nhưng làm thể nào để có thể xây dự...

Thumbnail Image
56
3
0 0
Avatar Trinh Quang May 31st, 4:21 p.m.
6 min read

Finetune BERT cho bài toán che thông tin cá nhân - Phần 2: Huấn luyện và đánh giá mô hình

Tổng quan Phần 1) chúng ta đã cùng nhau xác định các bước để tạo ra một mô hình xử lý bài toán NER thông qua việc finetuning BERT

Quá trình finetune BERT cho bài toán masking thông tin cá nhân bao gồm các bước sau:

  • Chuẩn bị dữ liệu: Tùy thuộc vào mục tiêu bài toán chúng ta sẽ tập chung vào từng bộ dữ liệu cụ thể

  • Tiền xử lý dữ liệu: Xử lý dữ liệu văn bản để đưa vào mô hình BERT, bao g...

Thumbnail Image
115
2
0 0
Avatar Trinh Quang May 31st, 4:21 p.m.
8 min read

Finetune BERT cho bài toán che thông tin cá nhân - Phần 1: Xử lý dữ liệu

Tổng quan Với sự phát triển nhanh chóng của công nghệ xử lý ngôn ngữ tự nhiên (NLP), việc bảo vệ thông tin cá nhân trên các nền tảng trực tuyến đã trở thành một vấn đề quan trọng. Một trong những giải pháp hiệu quả để giải quyết vấn đề này là sử dụng mô hình BERT (Bidirectional Encoder Representations from Transformers) để thực hiện bài toán masking thông tin cá nhân.

BERT là một mô hình ngôn ...

Thumbnail Image
236
9
0 6
Avatar Hoàng Minh Quân May 21st, 10:18 a.m.
10 min read

GEMM: Hiểu thêm về viên gạch tạo nên các mô hình Deep Learning

  1. GEMM không phải là nhân ma trận thôi à? Đúng vậy, GEMM chính là phép nhân ma trận. GEMM là viết tắt của GEneral Matrix Multiplication, là một phần của đặc tả bậc 3 của BLAS (Basic Linear Algebra Subprogram). GEMM được đặc tả với công thức tổng quát sau:

Trong đó và là các ma trận đầu với size lần lượt là và , và là đại lượng vô hướng, là ma trận đầu ra được khởi tạo từ trước với size ...

Thumbnail Image
226
5
1 0
Avatar Trinh Quang Huy May 20th, 6:57 a.m.
7 min read

Retrieval-Augmented Generation: Làm một project nho nhỏ với RAG (phần 2)

Lời mở đầu Xin chào mọi người, lại là mình đây. Như ở phần một thì mình cũng đã trình bày sương sương về khái niệm của RAG và cách hoạt động của nó. Vậy thì ở cái phần 2 này mình sẽ cùng mọi người thực hành tạo một con bot với RAG sử dụng framework llamaindex nhé.

Trước khi vào bài thực hành thì mọi người có thể download file notebook và datasets ở đây nhé: prepare

Thực hành Cài đặt một số pa...

Thumbnail Image
44
3
0 0
Avatar Nguyen Toan Thinh May 17th, 4:46 a.m.
10 min read

QuickStart và một vài cách custom nhanh giúp cải thiện Azure AI Search (phần 2)

Ở phần trước chúng ta đã đi qua các mục giới thiệu về Azure AI Search và cách Indexing. Trong phần này chúng ta sẽ đi vào các cách Querying và một số mẹo tinh chỉnh chúng.

Cùng bắt đầu nào!

Nội dung 3. Querying Azure AI Search hỗ trợ các cấu trúc truy vấn cho nhiều tình huống khác nhau, từ tìm kiếm văn bản dạng tự do đến các mẫu truy vấn được chỉ định cụ thể đến tìm kiếm vectơ. Tất cả các tru...

Thumbnail Image
53
3
0 0
Avatar Nguyen Toan Thinh May 17th, 4:46 a.m.
7 min read

QuickStart và một vài cách custom nhanh giúp cải thiện Azure AI Search (phần 1)

Lời mở đầu Với lượng dữ liệu ngày càng tăng, việc tìm kiếm và phân loại thông tin trở nên phức tạp hơn bao giờ hết. Azure AI Search là một dịch vụ tìm kiếm được cung cấp bởi Microsoft Azure, mang đến khả năng tìm kiếm thông tin mạnh mẽ và linh hoạt cho các ứng dụng và trang web.

Trong bài chia sẻ này, chúng ta sẽ khám phá cách sử dụng Azure AI Search để tìm kiếm và phân loại thông tin một các...

Thumbnail Image
281
15
2 0
Avatar Pham Minh Hoang May 9th, 6:21 p.m.
11 min read

Wing - Ngôn ngữ sinh ra cho Cloud

Lời mở đầu Lâu rồi mới viết lại, âu cũng do KPI đã đặt thì phải thực hiện thôi 🥲. Ok, hôm nay tôi sẽ giới thiệu cho các bạn ngôn ngữ Wing mới ra gần đây.

Bài viết này hướng tới người đọc:

  • Đang làm việc với Cloud: AWS, Azure, Google, ...
  • Đang nghiên cứu Cloud
  • Đang gặp khó khăn trong việc tiếp cận Cloud

Thời điểm viết bài này là 9:31 pm ngày mùng 5/9/2024. Sau khoảng thời gian đó mà repo...

Thumbnail Image
200
5
2 1
Avatar Hoang Thuy Ha May 9th, 3:14 a.m.
6 min read

Exponential Moving Average trong Deep Learning

Chất lượng của mô hình học sâu (deep learning) có liên quan chặt chẽ đến quá trình huấn luyện chúng. Để huấn luyện được mô hình tốt, việc giảm nhiễu (noise) từ quá trình cập nhật ngẫu nhiên (stochastic updates) là cần thiết. Cách chính quy, đã được chứng minh bằng toán học, dùng để giảm nhiễu trong tối ưu hàm lồi phải kể đến (tail) average. Ứng dụng trong học sâu (deep learning), để có được mô...

Thumbnail Image
217
11
0 5
Avatar HOneOhOne May 8th, 11:14 a.m.
19 min read

Tìm hiểu về giải pháp Digital Humans phần 1: NeRF mô hình tái tạo các cảnh 3D bằng mạng nơ ron dựa trên trường bức xạ

1.Giới thiệu chung. Nhiệm vụ tổng hợp hình ảnh người được điều khiển bởi âm thanh có rất nhiều ứng dụng, do đó, gần đây có nhiều nghiên cứu về chủ đề này. Nhiều phương pháp dựa trên việc sử dụng điểm đặc trưng (landmarks) và lưới (meshes) để làm thông tin cấu trúc khuôn mặt đã được phát triển, tức là sử dụng các đặc trưng trung gian làm cơ sở, và tất nhiên hiệu quả rất phụ thuộc vào các đặc trư...

Thumbnail Image
74
6
2 0
Avatar Trung Đức May 7th, 3:02 p.m.
6 min read

Scoring trong Azure AI Search (Part 1)

Trong bài viết trước, mình có giới thiệu tới các bạn về Full-text search trong Azure AI Search. Trong bài viết này, mình sẽ đi phân tích sâu hơn về cách tính score của nó (có thêm scoring của Semantic search bổ trợ). Như các bạn đã biết thì việc search, ngoài trả ra các docs liên quan thì nó cũng cần có những score tương ứng để xếp hạng (ranking) chúng theo độ tương đồng. Chúng ta bắt đầu nhé ...

Thumbnail Image
108
3
0 0
Avatar Trung Đức May 4th, 3:56 a.m.
11 min read

Full text search trong Azure AI Search

Dữ liệu đang tăng lên với tốc độ chóng mặt, và việc tìm kiếm thông tin dữ liệu trở nên cần thiết và khó khăn hơn bao giờ hết. Với sự phát triển mạnh mẽ của LLM ở thời điểm hiện tại, Retrival Augmented Generation hứa hẹn một tương lai đầy triển vọng. Gần đây thì mình tiếp xúc với khá nhiều dự án về RAG và cũng được làm việc chủ yếu với Azure AI Search cho nhiệm vụ Retrival data.

Azure AI Search...

Thumbnail Image
1.1K
16
6 0
Avatar Trinh Quang Huy Apr 23rd, 12:00 a.m.
31 min read

Retrieval-Augmented Generation: Phương pháp không thể thiếu khi triển khai các dự án LLM trong thực tế! (Phần 1)

Như mọi người đã biết thì hiện tại LLM nó ở khắp mọi mặt trận rồi, nhà nhà LLM người người LLM. Các ứng dụng của LLM cũng ngày càng phổ biến hơn. Vậy nên, hôm nay mình sẽ giới thiệu cho mọi người một kỹ thuật có tên là Retrieval-Augmented Generation (RAG) một kỹ thuật cực kỳ quan trọng và phổ biến. Oke, vậy RAG là gì? Mà tại sao lại cần nó trong các dự án LLM thực tế?

RAG là gì nhỉ?

Về mặt bả...

Thumbnail Image
308
11
2 3
Avatar Nguyen Toan Thinh Mar 27th, 2:17 a.m.
9 min read

Những lưu ý bạn cần biết để viết prompt và sử dụng Azure OpenAI hiệu quả

Lời mở đầu Hiện nay các hệ thống RAG ngày càng phổ biến và khá nhiều trong số đó sử dụng Azure OpenAI nhưng liệu bạn đã thực sự nắm được sử dụng như thế nào cho hiệu quả ? Sau 1 vài dự án về RAG, mình đã đúc kết được một số kinh nghiệm trong việc sử dụng Azure OpenAI và cách viết prompt sao cho tối ưu nhất.

Nội dung

  1. Cân nhắc khi chọn version cho Azure OpenAI API Đầu tiên, khi chọn Azure op...
Thumbnail Image
944
12
3 1
Avatar Nguyen Mai Mar 1st, 8:12 a.m.
6 min read

[Paper Explain] Mixtral of Experts: Lắm thầy thì model khỏe

Mở đầu Với những người sử dụng Large Language Model (LLM), hẳn cái tên Mixtral 8x7B đã không còn xa lạ gì nữa. Nhưng có ai thắc mắc tại sao lại là "8x7B" chứ không phải là 56B hay 7B như các model khác? Bài viết này sẽ giải đáp về cái tên của Mixtral 8x7B, cũng như là kĩ thuật mà mà Mixtral 8x7B đã sử dụng: Mixture of Experts (MoE). Nhìn lại một chút về Transformer Chắc hẳn bây giờ ai cũng đã b...

Thumbnail Image
868
12
7 0
Avatar Trần Đức Trung Feb 25th, 3:19 p.m.
10 min read

Một chút dbt

Sau gần 3 năm làm thợ gõ phím, tôi nhận ra rằng mỗi lần làm dự án là một lần để tôi nhận thấy mình code ngu như thế nào. (メ﹏メ) (メ﹏メ) (メ﹏メ)

Và tất nhiên rồi, không chần chừ gì nữa, tôi xin phép giới thiệu đến quý đọc giả về dbt (Data Build Tool) - công cụ mà tôi ước giá như mình biết sớm hơn để công việc trong quá khứ trôi chảy hơn rất nhiều (b ᵔ▽ᵔ)b

Một chút context

À thì cũng không phải tự...

Thumbnail Image
854
9
3 0
Avatar Bui Quang Manh Feb 16th, 10:35 a.m.
8 min read

Tổng quan Search Engine và Vector Database [Part 2]

Trong bài viết trước , mình đã giới thiệu về các khái niệm như vector search, vector database, search engine etc và ví dụ qua một công cụ cloud-based search engine là Azure Cognitive Search. Như đã đề cập trong phần trước, Azure Cognitive Search cung cấp các hình thức tìm kiếm sau:

  • Azure Full-Text Search
  • Azure Vector Search
  • Azure Hybrid Search

Trong bài viết trước, mình và các bạn đã điể...

Thumbnail Image
581
10
2 0
Avatar Thao Hoang Thu Jan 31st, 4:48 p.m.
8 min read

Bạn đã biết gì về prompt engineering? (P3) - Cải thiện Retrieval Augmented Generation (RAG) với query transformation

Ở bài trước mình đã giới thiệu sơ qua về RAG - Retrieval Augmented Generation - một phương pháp hữu hiệu giải quyết vấn đề hallucination cho các bài toán dùng LLM để truy xuất và cung cấp thông tin.

RAG giúp nâng cao kiến thức của mô hình ngôn ngữ bằng thông tin từ các nguồn bên ngoài đáng tin cậy như Wikipedia, các tài liệu về một vấn đề cụ thể. Vì vậy bước quan trọng nhất đối với RAG là đảm ...

Thumbnail Image
203
4
0 0
Avatar Trinh Quang Jan 31st, 1:35 p.m.
4 min read

Skorch: Cách để Pytorch trở nên đơn giản

Giới thiệu Skorch PyTorch luôn là một lựa chọn của hầu hết các anh em AI engineer để xây dựng bất kỳ mô hình học sâu nào. Tuy nhiên, có một điều đặc biệt mà anh em nào từng code PyTorch cũng thường xuyên gặp phải như hình bên dưới:

Trong đoạn code trên, với mỗi epoch thì chính ta cần lặp qua hết các batch dữ liệu. Mỗi batch dữ liệu chúng ta cần forward qua mô hình, tính loss và backward để cập...

Thumbnail Image
712
13
2 0
Avatar Pham Thi Hong Anh Jan 29th, 10:08 a.m.
6 min read

Viết code chỉ bằng mô tả, có thể không? Cùng thử Jupyter AI nhé.

Chào các bạn, như chúng ta cũng đã thấy ChatGPT đã làm khuấy động thị trường được gần 1 năm rồi. Kể cả tech hay non-tech đều sử dụng GPT khá là nhiều. Và vì vậy mình cũng muốn thử tìm kiếm xem có thể viết code chỉ bằng những mô tả từ ngữ thì có thể không? Và mình đã tìm thấy jupyter-ai . Với Jupyter-ai chúng ta ssẽ sử dụng Jupyter AI trực tiếp trong Jupyter Notebook và Jupyter Lab của mình để d...

Featured member
Viblo
Let's register a Viblo Account to get more interesting posts.