Image Cover
Avatar

Sun* AI Research Team

level partner

Nhà sáng tạo nội dung hạng Bạc

We're AI Research Team of R&D Lab @Sun Asterisk .Inc

Bài viết được ghim

Độ hot của Langchain

Langchain là một framework vô cùng hot hit trong thời gian gần đây. Nó được sinh ra để tận dụng sức mạnh của các mô hình ngôn ngữ lớn LLM như ChatGPT, LLaMA... để tạo ra các ứng dụng trong thực tế. Dù mới được phát triển cách đây khoảng 6 tháng (10/2022) và vẫn được cập nhật liên tục hàng ngày nhưng trên Github Langchain đã nhận được những tương tác khủng với lượng star lê...

Mayfest2023 ContentCreator
13.3K
56
24 8

Tất cả bài viết

Thumbnail Image
1.1K
12
8 0
Avatar Chung Pham Van thg 7 22, 2021 5:42 SA
8 phút đọc

Cơ chế Attention và các hàm tính Attention Scoring

Cơ chế Attention là gì?

Trong lĩnh vực ML, DL, bài toán dịch máy với mạng neural (Neural Machine Translation) chắc hẳn không còn xa lạ gì với mọi người. Ý tưởng đơn giản nhất để giải quyết bài toán này là sử dụng mô hình Sequence to Sequence, với 2 khối encoder và decoder, mỗi khối chỉ sử dụng lớp embedding và mạng hồi tiếp mà thôi. Với mỗi chuỗi nguồn đầu vào input, chúng được mã hóa bởi mạng...

Thumbnail Image
14.5K
33
11 13
Avatar Quang Trần thg 7 21, 2021 12:50 CH
24 phút đọc

Nhận diện khuôn mặt với mạng MTCNN và FaceNet (Phần 2)

Chào mừng các bạn đã quay lại với series "Nhận diện khuôn mặt với mạng MTCNN và FaceNet" của mình. Ở phần 1, mình đã giải thích qua về lý thuyết và nền tảng của 2 mạng là MTCNN và FaceNet. Nếu chưa đọc phần 1, các bạn có thể đọc qua trước khi qua phần này để hiểu cơ chế hoạt động dễ dàng hơn nhé, link phần 1 tại đây. Về bài này, mình sẽ hướng dẫn các bạn cách để xây dựng và inference một model ...

Thumbnail Image
915
7
1 0
Avatar Nguyen Viet Hoai thg 7 20, 2021 1:47 SA
32 phút đọc

XÂY DỰNG MÔ HÌNH 1 PHA PHÁT HIỆN VÀ NHẬN DẠNG VĂN BẢN NHIỀU DÒNG

Tổng quan Tổng quan bài toán: Trong lĩnh vực xử lí ảnh trong Học sâu, đặc biệt là liên quan đến bài toán nhận dạng kí tự quan học, các bài toán phát hiện và nhận dạng văn bản vẫn đang là một bài toán thử thách và có tính ứng dụng cao trong cộng đồng phân tích tài liệu văn bản. Không những về độ khó đòi hỏi mô hình xử lí có cấu trúc phức tạp mà nó còn là một đề tài nghiên cứu có tính ứng dụng c...

Thumbnail Image
5.5K
25
14 1
Avatar Thao Hoang Thu thg 7 19, 2021 5:01 CH
13 phút đọc

Chia sẻ kinh nghiệm thi chứng chỉ Tensorflow Developer Certificate

Trong bài này mình sẽ giới thiệu sơ bộ về chứng chỉ Tensorflow Developer Certificate cùng với chia sẻ kinh nghiệm học và thi đỗ chứng chỉ này của mình

  1. Giới thiệu về chứng chỉ Tensorflow Developer Certificate

TensorFlow là chứng chỉ được Google cấp cho các lập trình viên, kỹ sư máy tính, làm việc trong lĩnh vực trí tuệ nhân tạo và học máy. Từ tháng 3/2020, công ty này thông báo bắt đầu mở đơ...

Thumbnail Image
545
5
1 3
Avatar Thao Hoang Thu thg 7 16, 2021 12:25 CH
4 phút đọc

Paraphrase text trên Python với Parrot

Nếu từng có trải nghiệm làm chatbot (ví dụ với Rasa), chắc hẳn bạn cũng từng phải vò đầu bứt tai cố nghĩ ra các cách nói khác nhau (paraphrase) của cùng một user intent để tạo training data cho chatbot. Paraphrase với tiếng mẹ đẻ là tiếng Việt đã rất nản và mất thời gian rồi chứ đừng nói đến những ngôn ngữ khác. Ngoài ra khi augment data cho một số task NLU khác (ví dụ slot-filling) chúng ta c...

Thumbnail Image
6.9K
12
7 2
Avatar Do Dang Hung thg 7 16, 2021 10:14 SA
8 phút đọc

Tìm hiểu về kiến trúc Transformer

Giới thiệu Với sự ra đời của cơ chế attention thì vào năm 2017 paper Attention is all you need đã giới thiệu một kiến trúc mới dành cho các bài toán NLP mà không có sự xuất hiện của các mạng nơ-ron hồi tiếp (RNN, LSTM,...) hay là mạng nơ-rơn tích chập (CNN) - đó là Transformer. Như đã giới thiệu ở bài viết trước, trong các bài toán seq2seq các cấu trúc RNN hay LSTM đều có những hạn chế nhất địn...

Thumbnail Image
925
7
0 1
Avatar Long Lại Phi thg 7 16, 2021 9:22 SA
8 phút đọc

Adversarial Attack: Tấn công One-pixel

Giới thiệu

Nếu như chỉ được xây dựng một cách thông thường và không có ý định ngay từ ban đầu thì các mô hình Deep Learning tồn tại rất nhiều lỗ hổng về bảo mật. Một số cách tấn công mô hình rất phổ biến đó là tạo nên advesarial example bằng các thêm "noise" hay sử dụng các véc tơ để bóp méo ảnh đầu vào khiến cho ảnh tuy không có gì thay đổi với nhận thức của con người nhưng có thể khiến cho m...

Thumbnail Image
17.5K
25
8 0
Avatar Quang Trần thg 7 15, 2021 12:23 CH
13 phút đọc

Nhận diện khuôn mặt với mạng MTCNN và FaceNet (Phần 1)

Nhận diện khuôn mặt (Face Recognition) là một trong những thách thức lớn mà các nhà nghiên cứu về Học máy - Học sâu đã và đang phải đối mặt. Bài toán này có thể được áp dụng ở rất nhiều lĩnh vực khác nhau, đặc biệt trong những lĩnh vực yêu cầu độ chính xác và bảo mật cao như eKYC trong E-Comercial và nhận diện danh tính qua surveillance camera (CCTV). Ta sẽ chia bài toán này ra thành 2 vấn đề c...

Thumbnail Image
2.1K
11
4 3
Avatar Nguyen Dinh Thien thg 7 13, 2021 3:48 CH
6 phút đọc

Xây dựng mô hình Transformer cơ bản dịch tiếng Nhật sang tiếng Việt

I. Mở đầu

Trong bài viết này, mình sẽ hướng dẫn mọi người xây dựng mô hình transformer cơ bản cho dịch ngôn ngữ Nhật-Việt, trong bài viết trước đó của mình về Neural Machine Translation mình đã nêu ra một số khái niệm cơ bản của Seq2Seq(link ở phần tài liệu tham khảo), bởi vì trên Viblo đã có khá nhiều bài viết về Transformer cũng như Self-Attention hay, nên mình sẽ tiến hành hướng dẫn mọi ngư...

Thumbnail Image
6.3K
22
5 2
Avatar Blink thg 7 5, 2021 2:45 SA
13 phút đọc

Các kỹ thuật Dimensionality Reduction

Introduction

Với kỷ nguyên dữ liệu như hiện nay, một tập dữ liệu high-dimension (đa chiều) với hàng nghìn feature hay cột đã trở thành điều không quá xa lạ. High-dimension data mở hướng cho nhiều cách xử lý các bài toán phức tạp trong thực tế, có thể kể đến dự đoán cấu trúc protein liên quan COVID-19, phân tích hình ảnh MEG scan não, v.v. Tuy nhiên, một tập dữ liệu high-dimension lại thường ch...

Thumbnail Image
3.1K
18
12 0
Avatar Chung Pham Van thg 7 2, 2021 11:06 SA
8 phút đọc

Tự động sửa lỗi chính tả với Symspell Correction

[IMG]

Trong đời sống hàng ngày, chúng ta gặp các văn bản có chứa lỗi chính tả là rất nhiều. Đặc biệt, các mô hình học máy có dự đoán đầu ra là 1 văn bản mà độ chính xác chưa cao, thì kết quả dự đoán đó có thể có nhiều lỗi chính tả.

Symspell Correction là 1 giải pháp mà mọi người có thể tham khảo, với chức năng là đưa 1 văn bản có lỗi chính tả thành 1 văn bản đúng.

Symspell

Symspell là 1 phương p...

Thumbnail Image
6.0K
25
9 3
Avatar Nguyen Thanh Huyen thg 7 2, 2021 10:00 SA
17 phút đọc

A Guide to Image Captioning (Part 1): Giới thiệu bài toán sinh mô tả cho ảnh

Như đã hứa ở blog trước, bài viết tiếp theo của mình hôm nay là về Image Captioning (hoặc Automated image annotation), bài toán gán nhãn mô tả cho ảnh.

Đại khái là, ta có một cái ảnh, và ta cần sinh mô tả cho nó. Trông như thế này này:

Hình 1

Trước khi bắt tay làm gì đó, mình thường nhìn vào ứng dụng của nó trước. Có thể thấy thay ngay hai ứng dụng lớn.

  • Sinh mô tả cho ảnh. Số lượng ảnh đan...
Thumbnail Image
4.7K
18
2 1
Avatar Cao Minh Hiếu thg 7 2, 2021 8:26 SA
9 phút đọc

AdaBoost - Bước đi đầu của Boosting

I. Giới thiệu về AdaBoost

Các model Machine learning (không sử dụng Neural Network) có thể khái quát như sau:

Để hiểu rõ hơn các bạn có thể tham khảo 2 bài viết Gradient Boosting - Tất tần tật về thuật toán mạnh mẽ nhất trong Machine Learning và Ensemble learning và các biến thể (P1)

Trong bài viết này, mình giới thiệu 1 thuật toán, có thể coi là tổ tiên khai sinh ra Gradient Boosting hiện ...

Thumbnail Image
5.6K
15
7 1
Avatar Blink thg 6 24, 2021 8:59 SA
11 phút đọc

Distance Measure trong Machine learning

Introduction

Distance measures hay còn được biết đến là các phương pháp tính khoảng cách (point vs point, vector vs vector...) Các phương pháp này rất thường xuyên được sử dụng trong thuật toán như k-NN, UMAP, DBSCAN...

Tuy nhiên mỗi method có các ưu điểm cũng như nhược điểm riêng, việc lựa chọn distance measure tốt có thể giúp mô hình trở nên robust hơn. Hãy cùng tìm hiểu các phương pháp phổ...

Thumbnail Image
23.2K
41
15 3
Avatar Nguyen Thanh Huyen thg 6 24, 2021 3:48 SA
13 phút đọc

Recurrent Neural Network: Từ RNN đến LSTM

  1. Introduction Đối với các bạn học deep learning thì không thể không biết tới RNN, một thuật toán cực kì quan trọng chuyên xử lý thông tin dạng chuỗi. Đầu tiên, hãy nhìn xem RNN có thể làm gì. Dưới đây là một vài ví dụ.
  • Machine Translation (Dịch máy)
  • Mô hình hóa ngôn ngữ và sinh văn bản: đây có lẽ là khả năng ấn tượng nhất đối với mình.
  • Nhận dạng giọng nói
  • Mô tả hình ảnh: RNN kết hợp c...
Thumbnail Image
1.4K
10
4 6
Avatar Pham Thi Hong Anh thg 6 21, 2021 9:04 SA
6 phút đọc

Làm sao để trích xuất tính năng từ Dates bằng Python?

Xin chào mọi người hôm nay mình sẽ viết bài về cách lấy thêm tính năng từ bộ dữ liệu Time Series bằng code python. Nào chúng ta cùng bắt đầu thôi.

Trong khi làm việc với dữ liệu Time series, các giá trị của tập dữ liệu có thể bị ảnh hưởng bởi ngày nghỉ lễ, ngày nào trong tuần, số ngày trong tháng. Vậy thì làm sao để chúng ta có thể trích xuất các tính năng này từ Datetime bằng python để có thê...

Thumbnail Image
2.6K
8
2 1
Avatar Thao Hoang Thu thg 6 19, 2021 11:33 CH
13 phút đọc

Xây dựng mô hình dịch máy cho cặp ngôn ngữ Nhật - Việt

Mở đầu

Dịch tự động hay còn gọi là dịch máy (tiếng Anh: machine translation) là một nhánh của xử lý ngôn ngữ tự nhiên thuộc phân ngành trí tuệ nhân tạo, nó là sự kết hợp giữa ngôn ngữ, dịch thuật và khoa học máy tính. Như tên gọi, dịch tự động thực hiện dịch một ngôn ngữ này (gọi là ngôn ngữ nguồn) sang một hoặc nhiều ngôn ngữ khác (gọi là ngôn ngữ đích) một cách tự động, không có sự can thi...

Thumbnail Image
622
9
3 0
Avatar Blink thg 6 18, 2021 8:25 SA
10 phút đọc

Self-Attention Text Recognition Network

Giới thiệu Scene Text Recognition (STR) là một bài toán khó, đặc biệt khi Text trong ảnh không có hình dạng nhất định. Một phương pháp thú vị giới thiệu bởi các tác giả đến từ team Clova AI Research, NAVER. Trong paper này, Self-Attention Text Recognition Network (SATRN) được nghiên cứu và thực nghiệm nhằm giải quyết các bài toán Scene text recognition.

Tổng quan Với bài toán Scene Text Recogn...

Thumbnail Image
340
8
1 0
Avatar Blink thg 6 18, 2021 8:25 SA
7 phút đọc

DEMON - Momentum Decay cho mô hình NN

Giới thiệu Trong ML, DL các hàm/thuật toán tối ưu (optimizer) đóng vai trò không thể bàn cãi. Về cơ bản, thuật toán tối ưu là cơ sở để xây dựng mô hình neural network với mục đích "học " được các features của dữ liệu đầu vào, từ đó có thể tìm 1 cặp weights và bias phù hợp để tối ưu hóa mô hình.

Các thuật toán phổ biến hiện nay có thể kể đến như RMSProp, SGD, SGDM, AdaGrad và optimizer người n...

Thumbnail Image
1.2K
9
0 2
Avatar Nguyen Viet Hoai thg 6 6, 2021 8:01 SA
10 phút đọc

Cơ chế mã hóa vị trí 2 chiều giải quyết bài toán nhận dạng nhiều dòng

Giới thiệu Hầu hết các mô hình nhận dạng văn bản hiện nay đều xử lí trên dữ liệu 1 dòng . Về cơ bản mô hình nhận dạng sẽ có 3 thành phần là trích xuất , giải mã. Ở phần trích xuất sẽ là các mạng trích xuất đặc trưng như CNN,.. thu được một véc-tơ 1 chiều biểu diễn đặc trưng của các kí tự từ ảnh đầu vào. Vì vậy khi cho qua phần 2 đó là phần giải mã, phần này có nhiệm vụ dự đoán các giá trị phần ...

Thành viên nổi bật
Viblo
Hãy đăng ký một tài khoản Viblo để nhận được nhiều bài viết thú vị hơn.
Đăng kí