Image Cover
Avatar

Sun* AI Research Team

level partner

Nhà sáng tạo nội dung hạng Bạc

We're AI Research Team of R&D Lab @Sun Asterisk .Inc

Bài viết được ghim

Độ hot của Langchain

Langchain là một framework vô cùng hot hit trong thời gian gần đây. Nó được sinh ra để tận dụng sức mạnh của các mô hình ngôn ngữ lớn LLM như ChatGPT, LLaMA... để tạo ra các ứng dụng trong thực tế. Dù mới được phát triển cách đây khoảng 6 tháng (10/2022) và vẫn được cập nhật liên tục hàng ngày nhưng trên Github Langchain đã nhận được những tương tác khủng với lượng star lê...

Mayfest2023 ContentCreator
16.6K
65
31 8

Tất cả bài viết

Thumbnail Image
1.0K
15
4 0
Avatar Nguyen Tu Xuan Cong May 31st, 2022 4:57 p.m.
5 phút đọc

Hello world với Reinforcement Learning

Xin chào các bạn. Tiếp nối series về Reinforcement Learning (RL), hôm nay mình xin giới thiệu một ví dụ đơn giản có thể coi như là "Hello world" của RL.

  1. Giới thiệu Trong bài trước Đôi điều cơ bản về học tăng cường mình đã giới thiệu một số khái niệm của RL. Trong đó môi trường và các trạng thái, phần thưởng là những yếu tố quan trọng. Để cho có thể học được những chiến lược tối ưu hoặc tìm...
Thumbnail Image
876
12
5 4
Avatar Bui Tien Tung May 31st, 2022 4:56 p.m.
12 phút đọc

[Paper Explain] Learning Temporally Invariant and Localizable Features via Data Augmentation for Video Recognition - Bàn luận 1 chút về video augmentation.

Tiếp tục series Paper Explain đang dang dở về topic Action Recognition, trong bài viết này, mình muốn bàn một chút về data: Data Augmentation.

Chắc mọi người cũng đã biết rồi, bên cạnh một model tốt, thứ ảnh hưởng trực tiếp đến kết quả đầu ra, đó là chất lượng của dữ liệu. Việc xây dựng được một bộ dữ liệu sạch, số lượng lớn, tính tổng quát cao đôi khi improve còn tốt hơn việc sử dụng những mo...

Thumbnail Image
1.2K
11
1 0
Avatar Đinh Trọng Huy May 31st, 2022 2:02 p.m.
9 phút đọc

Tóm tắt vài mô hình Text-to-Speech (p3) - FastSpeech2

  1. FastSpeech2 có gì mới? FastSpeech - một non-aggressive model - có khả năng sinh ra giọng nói nhanh vượt trội so với các aggressive model thời bấy giờ với chất lượng gần tương đương nhờ xử lý khá tốt vấn đề one-to-many (1 phoneme ứng với nhiều mel-spectrogram). Dù vậy, nó vẫn có các nhược điểm:
  • Việc xây dựng teacher-student pipeline theo phương pháp Knowledge distillation rất phức tạp và tố...
Thumbnail Image
2.7K
35
12 2
Avatar Nguyen Thanh Huyen May 31st, 2022 1:41 p.m.
30 phút đọc

Deformable DETR: Phương pháp tiếp cận end-to-end cho bài toán object detection

Bài viết hôm nay là về một bài toán cực lỳ phổ biến mà ai làm việc trong ngành này cũng từng không ít lần thử sức, đó là bài toán object detection. Trên Papers with code, bài toán này ghi nhận 2080 papers, 191 dataset, 61 benchmarks cả thẩy, và số lượng thực tế đương nhiên còn nhiều hơn thế. Ngay bây giờ, kể cả khi rất nhiều SOTA đã được trình bày, các vấn đề xoay quanh bài toán này vẫn đang ti...

Thumbnail Image
1.8K
16
7 0
Avatar Nguyen Thanh Huyen May 31st, 2022 1:40 p.m.
15 phút đọc

[Paper Explain][Face Anti-Spoofing phần 2] SGTD - Tận dụng thông tin không gian và thời gian cho bài toán Face Anti-spoofing

Xin chào, đây là bài viết thứ 2 của mình trong chuỗi series về Face Anti-Spoofing.

Xin chào, ở bài viết trước, mình đã giới thiệu tổng quan các vấn đề trong bài toán Face Anti-Spoofing, bài toán chống giả mạo khuôn mặt. Những chia sẻ ở bài viết trước bao gồm: giới thiệu bài toán, các phương pháp tấn công giả mạo (face attack methods), các phương pháp chống tấn công giả mạo phổ biến (face anti-...

Thumbnail Image
5.9K
17
3 5
Avatar Nguyen Tu Xuan Cong May 31st, 2022 5:34 a.m.
11 phút đọc

Đôi điều cơ bản về học tăng cường

  1. Giới thiệu

Ắt hẳn các bạn đang đọc đã từng biết đến ít nhất một môn cờ (cờ caro, cờ vua, cờ tướng, cờ vây, ...). Mỗi một môn cờ có những luật chơi, chiến thuật và không gian các nước đi khác nhau, như số nước đi hợp lệ trong cờ vua là 101202.101701078108210^{120}2.10^{170}10^{78}10^{82} nguyên tử (Universe today). Nếu bạn vẫn chưa hình dung ra nó nhiều như thế nào 😑 thì hãy cứ xem rằng nó rất rất lớn đến mức...

Thumbnail Image
3.6K
21
10 6
Avatar Hung Tien Nguyen May 29th, 2022 11:06 p.m.
19 phút đọc

Tìm hiểu về Automatic Speech Recognition

Hiểu được ngôn ngữ nói, hoặc là chuyển được âm thanh thành dạng chữ viết là 1 trong những mục tiêu đầu tiên của xử lý ngôn ngữ máy tính. Thực tế, xử lý tiếng nói đã được tiến hành bởi máy tính nhiều thập kỉ trước. Mục tiêu của automatic speech recognition (công nghệ tự nhận dạng giọng nói) là ánh xạ bất kì waveform nào:

về dạng chữ viết:

Tự động nhận dạng tiếng nói bởi bất kì người nào trong ...

Thumbnail Image
2.0K
29
6 6
Avatar Bui Tien Tung May 29th, 2022 7:07 p.m.
18 phút đọc

[Paper Explain] Revisiting Skeleton-based Action Recognition - BKAI-NAVER Challenge 2022 Top1 Solution Baseline

Tiêu đề hơi giật tít một chút, nhưng gần đây, mình cùng team có tham gia một challenge được tổ chức bởi trung tâm nghiên cứu BKAI kết hợp với tập đoàn NAVER, trong 1 tác vụ về "Body Segmentation and Gesture Recognition", may mắn giật nhẹ cái :1stplacemedal: .

Thật ra thì tác vụ này bao gồm 2 phần chính (như chính tên tác vụ): Segmentation và Recognition. Nếu các bạn quan tâm về giải pháp đầy đ...

Thumbnail Image
22.8K
14
5 0
Avatar Nguyen Toan Thinh May 29th, 2022 2:37 p.m.
21 phút đọc

Đánh giá model trong Machine Learing

Machine learning (Học máy) là một ứng dụng của trí tuệ nhân tạo (AI) cung cấp cho các hệ thống khả năng tự động học hỏi và cải thiện từ kinh nghiệm mà không cần được lập trình rõ ràng.

Một trong những phần khó trong Học máy là đánh giá hiệu suất của Mô hình. Vậy làm cách nào để đo lường sự thành công của một mô hình học máy? Làm thế nào chúng ta biết khi nào nên dừng việc đào tạo và đánh giá v...

Thumbnail Image
286
6
0 1
Avatar Hieu Bui May 29th, 2022 1:09 p.m.
8 phút đọc

[Paper Explain] DualStyleGAN: Exemplar-Based High-Resolution Portrait Style Transfer

Introduction Gần đây, nhiều nghiên cứu chỉ ra rằng StyleGAN có thể thực hiện style transfer chất lượng cao chỉ với một lượng dữ liệu hạn chế bằng một chiến lược fine tuning phù hợp. Paper Pastiche Master: Exemplar-Based High-Resolution Portrait Style Transfer đề xuất một mở rộng của kiến trúc StyleGAN với intrinsic style path và extrinsic style path để mã hóa style của domain gốc và domain cần...

Thumbnail Image
860
9
0 1
Avatar Đinh Trọng Huy May 29th, 2022 5:19 a.m.
7 phút đọc

Tóm tắt vài mô hình Text-To-Speech (p2) - FastSpeech

  1. Autogressive và Non-Autogressive model
  • Autogressive model hiểu đơn giản chỉ là 1 feed-forward model mà dự đoán các giá trị tương lai dựa trên các giá trị quá khứ. Các kiến trúc TTS tiêu biểu cho Autogressive model có thể kể đến mô hình Tacotron và Tacotron2 được giới thiệu trong bài viết trước của mình
Source: <a ...
Thumbnail Image
8.9K
31
7 3
Avatar Nguyen Mai May 28th, 2022 6:25 p.m.
10 phút đọc

Tổng hợp kiến thức từ YOLOv1 đến YOLOv5 (Phần 1)

Mở đầu Object Detection là một bài toán phổ biến trong Computer Vision. Mục tiêu của Object Detection là xác định và phân loại các object (vật thể) tồn tại trong ảnh, là một bài toán multi-task, thực hiện Classification và Regression (Localization) đồng thời. Ở những thời kì đầu tiên trong lĩnh vực này, các nghiên cứu tập trung vào việc sử dụng các hand-crafted feature (đặc điểm nhận dạng do co...

Thumbnail Image
744
8
2 4
Avatar Trần Đức Trung May 28th, 2022 8:29 a.m.
15 phút đọc

Xây dựng pipeline học máy với FuseML

Vậy là chỉ 2, 3 tháng nữa là lại đến một mùa bảo vệ khóa luận/đồ án. Trên tình thần hỗ trợ các anh chị em bịa thêm một chương trong báo cáo của mình, bài viết này giới thiệu về giải pháp được cung cấp bởi SUSE để xây dựng một pipeline linh hoạt và hiệu suất cao nhằm đáp ứng xây dựng cũng như triển khai các mô hình học máy.

Ok nẹt gâu.

Giới thiệu về FuseML Việc xây dựng hệ thống Machine Learni...

Thumbnail Image
2.5K
16
3 4
Avatar Hung Tien Nguyen May 27th, 2022 3:24 p.m.
12 phút đọc

Tìm hiểu 1 số mô hình Text-To-Speech (P1)

  1. Tacotron 2

Tacotron 2 là 1 mô hình tổng hợp tiếng nói trực tiếp từ văn bản đầu vào. Nó dựa trên sự kết hợp giữa convolution neural network (CNN) và recurrent neural network (RNN).

Có 2 thành phần chính trong Tacotron 2:

  • 1 mạng seq2seq có tên Spectrogram Prediction Network dùng để dự đoán chuỗi mel spectrogram từ 1 chuỗi kí tự đầu vào.
  • 1 phiên bản điều chỉnh của WaveNet tạo ra âm ...
Thumbnail Image
1.3K
7
0 1
Avatar Đinh Trọng Huy May 26th, 2022 10:10 a.m.
4 phút đọc

Tóm tắt vài mô hình Text-To-Speech (p1) - Tacotron và Tacotron2

1, Tacotron Ra đời: Tacotron được ra mắt bởi Google năm 2017 qua bài báo TACOTRON: TOWARDS END-TO-END SPEECH SYNTHESIS

Kiến trúc: Tacotron là một end-to-end Text-To-Speech(TTS) model dựa trên kiến trúc seq2seq và attention. Đầu vào của model là các chuỗi ký tự, đầu ra là các waveform được biến đổi từ Linear Spectrogram bằng giải thuật Griffin-Lim. Về giá trị chi tiết của các hyperparameter thì...

Thumbnail Image
1.6K
7
4 3
Avatar Đinh Trọng Huy May 25th, 2022 6:11 a.m.
7 phút đọc

[ML System Design] Tổng quan về Machine Learning System Design

  1. Machine Learning (ML) System Design là gì? a) Khái niệm ML System Design là quá trình xác định giao diện, thuật toán, dữ liệu, phần cứng, hạ tầng... cho một hệ thống ML nhằm đạt được các yêu cầu nhất định.

Lấy ví dụ 1 hệ thống ML đơn giản: phần mềm chấm công bằng khuôn mặt. Bạn cần gì, ngoài 1 cái model tốt? Đầu tiên là cái server với database lưu thông tin nhân viên, đương nh...

Thumbnail Image
1.5K
13
2 4
Avatar Nguyễn Văn Quân May 25th, 2022 4:27 a.m.
27 phút đọc

Từ lý thuyết lượng tử đến Quantum Neural Network (phần 2) - Simple Quantum Neural Network

Một số kiến thức cần nắm

Mình khuyến khích mọi người trước khi đọc bài này thì nên tìm hiểu Quantum Computing hoặc đọc bài giới thiệu cơ bản về tính toán lượng tử mà mình đã viết để có thể hiểu rõ hơn. Tuy nhiên, mình vẫn sẽ tóm tắt lại các ý chính của phần trước ở đây đồng thời có thêm một số đoạn code để các bạn dễ hình dung hơn. Ở bài viết này mình sẽ lược qua một số kiến thức tiếp theo về...

Thumbnail Image
422
9
1 0
Avatar Quang May 23rd, 2022 2:16 p.m.
15 phút đọc

Tô-pô và dữ liệu: Một cách để đánh giá mô hình sinh

Cho trước 1 tập test, mục tiêu là đưa ra 1 chỉ số đánh giá sự tương đồng của tập test đối với đầu ra của mô hình sinh. Tuy nhiên, việc đánh giá mô hình sinh không dễ dàng như các mô hình phân lớp.

Một chỉ số có thể dùng để đánh giá là log likelihood. Cụ thể hơn, với mỗi điểm dữ liệu, chúng ta sẽ tính log likelihood của mô hình với điểm này, rồi lấy kì vọng trên toàn tập test

Nhược điểm là chỉ...

Thumbnail Image
3.5K
15
6 1
Avatar Nguyen Mai May 22nd, 2022 6:20 p.m.
9 phút đọc

[Paper Explain] Thủ thuật làm tăng độ chính xác cho các mạng Object Detection

Lời mở đầu Object Detection là một trong những vấn đề căn bản nhất trong Computer Vision. Các mạng Object Detection, kể cả là một pha (SSD, YOLO,...) hay là hai pha (họ R-CNN), đều dựa trên một backbone từ một mạng Classification như VGG, ResNet, MobileNet,... Mặc dù có tốc độ phát triển cực nhanh và đạt được những thành công lớn, nhưng các mạng Object Detection đều sử dụng các cách thức xử lý ...

Thumbnail Image
182
6
0 0
Avatar Trinh Quang Huy May 18th, 2022 3:49 a.m.
14 phút đọc

[Paper Explain] Cheaper Pre-training Lunch: An Efficient Paradigm for Object Detection

Giới thiệu Chắc hẳn mọi người mọi người khi nghiên cứu hoặc làm những ứng dụng về deep learning thì không còn xa lạ gì với khái niệm pre-training models. Điển hình ở đây chắc chắn là ImageNet pre-training, là một tập hợp các models pre-trained được đào tạo trên bộ dữ liệu ImageNet cực kỳ lớn. Nhưng rồi cái gì nó cũng sẽ có điểm yếu và dần phải được thay thế bởi những thứ mạnh mẽ hơn. Và đây chí...

Thành viên nổi bật
Viblo
Hãy đăng ký một tài khoản Viblo để nhận được nhiều bài viết thú vị hơn.
Đăng kí