Pinned Posts
Độ hot của Langchain
Langchain là một framework vô cùng hot hit trong thời gian gần đây. Nó được sinh ra để tận dụng sức mạnh của các mô hình ngôn ngữ lớn LLM như ChatGPT, LLaMA... để tạo ra các ứng dụng trong thực tế. Dù mới được phát triển cách đây khoảng 6 tháng (10/2022) và vẫn được cập nhật liên tục hàng ngày nhưng trên Github Langchain đã nhận được những tương tác khủng với lượng star lê...
All posts
Xin chào các bạn, bài viết hôm nay mình sẽ chia sẻ về Attention trong Sequence 2 sequence model. Như các bạn cũng biết Attention là một state-of-the-art model và cũng đã được mọi người ứng dụng và thử nghiệm trong nhiều bài toán. Và chúng ta cùng theo dõi xem vì sao Attention lại góp phần vào sự thành công của nhiều model deep learning khác trong đó có Seq2Seq mà mình sẽ chia sẻ ở dưới đây.
At...
Lời mở đầu Chào các bạn,
Do dòng đời xô đẩy nên tôi lại viết tiếp đây. Chủ đề hôm này là Airflow, chi tiết sẽ có trong các mục phía dưới
Do lượng kiến thức về framework này khá lớn nên tôi sẽ cố gắng viết các phần nối tiếp nhau, bạn đọc chú ý.
Khái niệm về Airflow Airflow là một công cụ lập lịch trình cho luồng công việc của bạn cũng như hỗ trợ quản lý, theo dõi từng phần trong quy trình giú...
- Giới thiệu chung Trong bài viết lần trước mình đã giới thiệu về DETR một hướng tiếp cận mới cho bài toán Object Detection để hiểu một cách chọn vẹn Deformable DETR mình khuyến nghị mọi người nên đọc bài viết về DETR của mình trước https://viblo.asia/p/object-detection-with-transfromer-detr-eW65GpmjKDO. Mặc dù hướng tiếp cận khá hay nhưng DETR vẫn còn một số vấn đề như:
- DETR có kết quả khá ...
Lời mở đầu Chào các bạn, lâu rồi không viết bài trên Viblo nên hôm nay tôi tâm sự chút trải nghiệm của mình khi huấn luyện mô hình trên nhiều máy tính (multi-node training).
Chả là, đồng nghiệp tôi toàn kháo nhau về huấn luyện mô hình trên một máy có nhiều gpu (distributed training on single node) ... ờ thì lúc đầu tôi chẳng thấy hứng thú gì cho lắm, cho đến khi dính phải một cái dự án cần tra...
- Sơ bộ về Self-Attention và Transformer 1.1 Self Attention
Trong ví dụ trên, đầu vào bao gồm hai câu: "the rabbit quickly hopped" và "the turtile slowly crawled". [SEP] là token đặc biệt ngăn cách giữa các câu, [CLS] là token được thêm vào đầu câu sử dụng cho classification tasks. Hình ảnh biểu diễn cho mỗi từ ở bên trái với những từ ở bên phải sẽ có trọng số nhất định. Độ đậm của màu thể hi...
Giới thiệu Mặc dù việc upscale ảnh bằng mạng CNN đã đạt được nhiều tiến bộ đáng kể về độ chính xác và thời gian chạy, ta vẫn còn một vấn đề lớn vẫn chưa được giải quyết: làm sao để khôi phục được các chi tiết trên bề mặt các object, nhất là khi hệ số upscale lớn (3x, 4x,...)? Bài báo "Photo-Realistic Single Image Super-Resolution Using a Generative Adversarial Network" sẽ giải quyết vấn đề này ...
I. Tổng quan
<img src="https://images.viblo.asia/f42e0229-a318-4346-8f4f-d6b0ba476f02.png" >
Ứng dụng bài toán Text Recognition (ảnh mạng)
Bài toán nhận dạng chữ đến nay đã thu hút rất nhiều học giả nghiên cứu vì tính thách thức cũng như khả năng ứng dụng thực tế của bài toán này. Bài toán này có nhiệm vụ chuyển vùng chữ được xác định bởi mô hình phát hiện chữ ở dạng ảnh về dạng c...
Trái ngược với việc Machine Learning đã và đang có vô vàn ứng dụng trong thực tế trong hơn vài thập kỷ qua, công cụ hỗ trợ các nhà nghiên cứu và kỹ sư trong lĩnh vực này vẫn đang phát triển. Vậy nên khi các mô hình trở nên phức tạp và các nguồn dữ liệu trở nên đa dạng, cơ sở hạ tầng, đặc biệt là các cơ sở hạ tầng cấp thấp như Kubernetes, mạng, trình điều khiển GPU, quản lý tài nguyên, v.v sẽ tr...
Giới thiệu Trong những năm trở lại đây semi-supervised learning đã và đang trở thành chủ đề được ứng dụng và nghiên cứu trong nhiều lĩnh vực khác nhau(xử lý hình ảnh, xử lý ngôn ngữ, tiếng nói ..vv). Trong đó việc ứng dụng semi-supervised learning để cải thiện hiệu quả cho các bài toán về segmentation đang được xem là một trong số những xu hướng nghiên cứu những năm gần đây. Trong bài viết lần ...
I. Giới thiệu Ở trong phần 1 của bài viết Bài toán phát hiện chữ (Text Detection) và mô hình DB (Phần 1) , tôi đã giới thiệu tổng quan các mô hình phát hiện chữ và mô hình phát hiện chữ DB. Trong bài viết hôm nay, tôi sẽ giới thiệu cho các bạn một phiên bản cải tiến của mô hình DB là DB++ được giới th...
I. Tổng quan bài toán phát hiện chữ
<img src="https://images.viblo.asia/78e9f605-137f-4e93-88f2-9fe6807b9885.png" >
Ảnh 1: Minh họa ứng dụng phát hiện chữ trong thực tế
Bài toán phát hiện chữ trong ảnh là bài toán xác định vị trị vùng có chữ trong ảnh đã trở nên phổ biến cả về mặt ứng dụng và nghiên cứu vì khả năng ứng dụng của nó . Đến hiện tại, bài toán phát hiện chữ trong ảnh thường ...
Mở đầu Đây là một paper khá hay phân tích về việc làm thế nào để thiết kế một model thực sự là hiệu quả về mặt tốc độ, điện năng tiêu thụ và độ chính xác. Nó đạp đổ toàn bộ những mạng nơ-ron tự xưng là cực nhẹ và tốc độ cao ra đời trước đó như MobileNet, ShuffleNet,... bổ sung thêm những kiến thức cần thiết cho việc thiết kế một model nhẹ. Hơn nữa, mình thấy paper này có những cách đặt vấn đề v...
Giới thiệu Explainable AI Sự thành công của Deep Neural Network (DNN - mạng nơ-ron sâu) đã mang đến những bước tiến lớn trong các ứng dụng, nghiên cứu A.I (trí tuệ nhân tạo). Mặc dù vô cùng thành công, nhưng DNN hoạt động giống như một chiếc hộp đen, ta không biết tại sao mạng nơ-ron lại đưa ra một quyết định cụ thể. Do đó, khi một hệ thống A.I dự đoán sai, ta không hề biết tại sao hệ thống đó ...
Có thể nói rằng thành công gần đây của của các mô hình Deep Learning một phần được thúc đẩy bởi việc huấn luyện trên các bộ dữ liệu có kích cỡ ngày càng lớn. Tuy vậy, đôi khi hẳn ta sẽ tự hỏi kiểu như "Liệu bao nhiêu dữ liệu trong 10 triệu mẫu kia là không cần thiết?", "Liệu có những mẫu dữ liệu nào quan trọng cho việc tổng quát hóa không và ta tìm thấy chúng như thế nào? Bài viết này trình bày...
Mở đầu Đây là bài viết cuối cùng trong chuỗi series giải thích họ nhà YOLO, lần này tập trung vào YOLOv4 và YOLOv5. Bài viết này gồm rất nhiều những kiến trúc, ý tưởng mới nên có chỗ nào khó hiểu, mình highly recommend các bạn nên đọc paper về phần đấy để có thể nắm được rõ nhất. Phần này sẽ tóm tắt và phân tích ngắn gọn về những thay đổi trong kiến trúc (backbone + neck), các kĩ thuật xử lý da...
Giới thiệu MMDetection MMDetection là một thư viện chuyên phục vụ cho các bài toán liên quan đến Object Detection, được tạo ra bởi OpenMMLab, cha đẻ của rất nhiều thư viện khác như MMCV, MMSegmentation,... Lưu ý, nên xem bài viết này trong lúc mở sẵn github của MMDetection hoặc một IDE có MMDetection để có thể hiểu được tốt nhất Ưu điểm
- Tính module hóa cực cao, mọi...
Lời mở đầu Các mô hình Deep Learning thường có xu hướng đối dữ liệu - data hungry. Đối với các nhiệm vụ cụ thể, nếu như được cung cấp một lượng đầy đủ dữ liệu có những thì các thuật toán supervised learning có thể xử lý rất tốt. Để đạt được hiệu năng cao thì mô hình thường đòi hỏi một lượng khá lớn các dữ liệu có nhãn và chi phí để gán nhãn dữ liệu thường là rất đắt đỏ. Ngược lại, các nguồn dữ...
Mở đầu
Ở bài viết lần trước, mình đã trình bày về YOLOv1: Lý do tại sao YOLO lại ra đời, đồng thời phân tích ý tưởng chính và hàm Loss của YOLOv1. Tiếp tục với series phân tích YOLO, lần này mình sẽ trình bày về 2 phiên bản khác trong họ nhà YOLO, cụ thể là YOLOv2 và YOLOv3. Mình sẽ tập trung phân tích về kiến trúc mạng, những thay đổi trong quá trình training, cách sử dụng Anchor Box cũng như...
Xin chào các bạn, tiếp nối bài viết trước về Active Learning - một trong những phương pháp hữu hiệu để xử lý đối với trường hợp thiếu dữ liệu có nhãn. Bài viết này mình xin phép được chia sẻ với các bạn một phương pháp khác đó là semi-supervised learning hay còn gọi với cái tên khác là học bán giám sát. Và không còn chần chừ gì nữa chúng ta sẽ bắt đầu ngay thôi. Gét gô.
Semi supervised learnin...
- FastSpeech 2
3.1 Giới thiệu
1 số mô hình non-autoregressive TTS như FastSpeech có khả năng sinh giọng nói nhanh hơn các mô hình autoregressive với độ chính xác tương đương. Việc huấn luyện mô hình FastSpeech phụ thuộc vào autoregressive teacher model để dự đoán thời lượng âm vị và knowledge distillation (chắt lọc tri thức), có thể giải quyết tốt các vấn đề one-to-many (1 văn bản có thể si...