Image Cover
Avatar

Sun* AI Research Team

level partner

Nhà sáng tạo nội dung hạng Bạc

We're AI Research Team of R&D Lab @Sun Asterisk .Inc

Bài viết được ghim

Độ hot của Langchain

Langchain là một framework vô cùng hot hit trong thời gian gần đây. Nó được sinh ra để tận dụng sức mạnh của các mô hình ngôn ngữ lớn LLM như ChatGPT, LLaMA... để tạo ra các ứng dụng trong thực tế. Dù mới được phát triển cách đây khoảng 6 tháng (10/2022) và vẫn được cập nhật liên tục hàng ngày nhưng trên Github Langchain đã nhận được những tương tác khủng với lượng star lê...

Mayfest2023 ContentCreator
11.4K
53
21 7

Tất cả bài viết

Thumbnail Image
3.2K
12
5 0
Avatar Trung Đức thg 5 5, 2023 7:08 SA
18 phút đọc

PySpark với một project Machine Learning nho nhỏ

Trong không khi người người MayFest, nhà nhà MayFest, tiếp nối series tự học và khám phá về Data Sience, trong bài viết hôm nay mình sẽ chia sẻ cùng mọi người kiến thức cơ bản cũng như thực hành về Spark với một project Machine Learning nho nhỏ.

Là một người đã hoặc đang làm việc với dữ liệu, chắc hẳn các bạn đã quá quen với việc lưu trữ dữ liệu trên máy local cá nhân hoặc server cá nhân, công...

Thumbnail Image
480
4
1 0
Avatar Đinh Trọng Huy thg 5 4, 2023 4:37 CH
14 phút đọc

Evaluating and Testing models - có vẻ phức tạp hơn bạn nghĩ

Lời mở đầu Đánh giá/kiểm thử là một trong những khâu quan trọng nhất trong kỹ thuật phần mềm. Việc kiểm thử đảm bảo tránh các lỗi phát sinh trong quá trình sử dụng sản phẩm của người dùng, cũng như kiểm tra liệu sản phẩm đã đạt đến yêu cầu nào đó của người lập trình cũng như khách hàng.

Trong Machine Learning, mọi thứ cũng cơ bản là vậy. Đánh giá không chỉ đơn giản là dùng 1 metric nào đấy như...

Thumbnail Image
673
6
1 0
Avatar Nguyen Tung Thanh thg 5 4, 2023 12:43 CH
9 phút đọc

[Paper Explain] Improved Denoising Diffusion Probabilistic Models (v1)

Giới thiệu Năm 2020, DDPM (Denoising Diffusion Probabilistic Models) đưa ra một số cải tiến, đơn giản hoá cho mô hình diffusion và đạt được SOTA trên tập CIFAR10. Vài tháng sau đó, đầu năm 2021, OpenAI xuất bản một paper đưa ra một số cải tiến cho DDPM. Trong bài viết này mình sẽ cố gắng làm nổi bật một số điều hay ho trong paper cải tiến này. Mặc dù rất nhiều settings trong DDPM vẫn còn được d...

Thumbnail Image
617
5
0 0
Avatar Hieu Bui thg 5 4, 2023 10:03 SA
8 phút đọc

Cơ bản về fastai - Thư viện bậc cao cho Pytorch (P1)

Intro Hello mọi người, một mùa Mayfest nữa lại tới nên mình quay lại viết bài và chủ đề của bài viết ngày hôm nay là về thư viện fastai.

Nếu như trong Tensorflow có Keras thì Pytorch cũng có một số thư viện bậc cao để việc phát triển mô hình học sâu nhanh chóng và thuận tiện hơn như Lightning, Ignite và fastai. Fastai được thiết kế xung quanh 2 mục tiêu chính: Dễ tiếp cận và có thể nhanh chó...

Thumbnail Image
211
4
0 2
Avatar Bui Quang Manh thg 5 4, 2023 9:45 SA
7 phút đọc

Tối ưu quá trình huấn luyện với tf.data API

A. Tensorflow data pipelines

Theo định nghĩa từ trang chủ Tensorflow , tf.data API cho phép bạn xây dựng đầu vào dữ liệu cho các mô hình từ đơn giản tới phức tạp. Nhưng cho dù đơn giản hay phức tạp, data pipeline cũng thường có 3 bước như sau:

  • Extract
  • Transform
  • Load

import tensorflow as tf import tensorlfow_datasets as tfds

extract phase dataset = tfds.load(name="mnist", split=...

Thumbnail Image
3.7K
9
2 0
Avatar Trần Đức Trung thg 5 4, 2023 9:40 SA
18 phút đọc

Một số điểm cần lưu ý khi sử dụng Airflow - Phần 1

Airflow là một công cụ quản lý luồng dữ liệu phổ biến trong các hệ thống xử lý dữ liệu hiện đại. Tuy nhiên, việc sử dụng một tổ hợp nhiều thành phần như vậy đòi hỏi người dùng phải có nhiều kiến thức và kinh nghiệm để có thể sử dụng framework này một cách hiệu quả. Chính vì vậy, trong bài viết này, mình sẽ giới thiệu cho các bạn một số thứ cần quan tâm trong việc sử dụng Airflow, từ cách setup ...

Thumbnail Image
1.0K
8
1 0
Avatar Nguyen Mai thg 5 4, 2023 9:06 SA
14 phút đọc

[Paper Explain] RTMDet: YOLO của OpenMMLab

Mở đầu Mình khá là thích OpenMMLab, một team nghiên cứu đã cung cấp rất nhiều repo tăng tốc các thử nghiệm như MMDetection, MMSegmentation, MMCV,... Đây là lần đầu mình đọc, và phân tích một paper của OpenMMLab. Về cơ bản thì đây chỉ là một họ model Object Detection rất là nhanh, và chính xác gọi là Real-Time Models for Object Detection: RTMDet. Ngoài Object Detection, RTMDet còn có thể thực hi...

Thumbnail Image
166
5
0 0
Avatar Trần Quang Vinh thg 5 4, 2023 8:52 SA
11 phút đọc

[Paper explained] Non-local Neural Networks

Trong deep learning, việc lấy được các thông tin ở xa so với vị trí hiện tại khá là quan trọng. Ví dụ, với dữ liệu dạng sequence, ta có thể dùng phép recurrent để làm việc này. Còn với dữ liệu dạng ảnh, ta thường stack các phép convolution lên nhau để mở rộng receptive field. Cả hai phép này đều có đặc điểm là chúng chỉ xử lý các local neighborhood (các phép recurrent thường chỉ lấy thông tin c...

Thumbnail Image
1.7K
6
1 0
Avatar Trung Đức thg 5 4, 2023 8:13 SA
7 phút đọc

Cùng thiết lập Multi Node Cluster trong Hadoop 2.x nào!

Trong bài viết trước của mình, mình đã giới thiệu về Hadoop và các thành phần của Hadoop. Hadoop là một hệ sinh thái mã nguồn mở được sử dụng để lưu trữ và xử lý dữ liệu lớn. Nhân tiện một ngày đẹp trời được giao task setup multi node cluster để làm 1 số công việc trên công ty, mình viết luôn một bài coi như node lại quá trình cài đặt cũng như kiểm thử về multi node cluster trong Hadoop.

Việc ...

Thumbnail Image
258
4
0 0
Avatar Bui Quang Manh thg 5 4, 2023 7:35 SA
7 phút đọc

Graph execution và Eager execution trong Tensorflow

<img src="https://images.viblo.asia/0c976705-3d65-4272-8779-0972e528987c.png" >

   Figure 1. Eager Execution vs. Graph Execution  <br>
(https://towardsdatascience.com/eager-execution-vs-graph-execution-which-is-better-38162ea4dbf6)

Tensorflow là một nền tảng hỗ trợ cho việc học máy từ việc tải, xử lý dữ liệu đến huấn luyện, triển khai mô hình cùng vô vàn tác vụ khác.

Tensorflow...

Thumbnail Image
1.5K
34
8 1
Avatar Phạm Văn Toàn thg 5 2, 2023 3:25 CH
23 phút đọc

Hướng đi nào cho những người làm AI trong kỉ nguyên của các Super Large Models?

Lời mở đầu

Có lẽ thời gian chỉ trong vòng vài tháng trở lại đây, thế giới công nghệ đã bị khuynh đảo bởi các mô hình AI như ChatGPT, GPT-4, DALLE-2, Midjourney... Các mô hình AI đã thực sự tạo được cho người dùng những cảm xúc wow và có thể thấy rằng đâu đâu cũng nói về nó. Có phải kỉ nguyên mới của AI có phải đã bắt đầu rồi không? Bản thân mình nghĩ là CÓ. NÓ THỰC SỰ ĐÃ BÁT ĐẦU. Và chúng ta,...

Thumbnail Image
2.7K
77
17 6
Avatar Phạm Văn Toàn thg 4 5, 2023 1:12 CH
32 phút đọc

Bóc trần hệ thống gợi ý của Twitter - một cú lừa ngày cá tháng tư???

Lời mở đầu

Xin chào các bạn, có lẽ gần đây thế giới công nghệ không khỏi choáng ngợp trước tần suất ra mắt của các sản phẩm AI từ ChatGPT, GPT-4 và gần đây nhất là vào ngày 1/4, Elon Musk và Twitter đã quyết định open source một phần của hệ thống gợi ý trên nền tảng Twitter tại đây và tại đây. Và mới chỉ sau hai ngày, repo này đã đạt được 38000 star trên Github đủ để thấy sức nóng của nó lớn đ...

Thumbnail Image
2.8K
27
14 2
Avatar Nguyen Tung Thanh thg 4 4, 2023 6:25 SA
23 phút đọc

Diffusion Models cơ bản - Phần 1

Diffusion Models đang dần phổ biến. Nhiều trường đại học và khóa học đã đưa Diffusion Models vào chương trình giảng dạy. Mình viết bài này với hy vọng bài viết này sẽ có ích phần nào với các bạn muốn tìm hiểu về Diffusion Models.

Một số từ tạm dịch

  • Diffusion: khuếch tán
  • Quasi-static process: quá trình chuẩn tĩnh
  • Thermodynamic Equilibrium: cân bằng nhiệt động học (NĐH)
  • Forward Diffusion...
Thumbnail Image
1.3K
8
1 0
Avatar Trung Đức thg 4 4, 2023 2:53 SA
15 phút đọc

Hadoop thì có liên quan gì tới Big Data?

Ở nội dung các bài viết trước, mình có giới thiệu qua về nội dung khóa học Data Science Fundamental và Data Analytics Fundamental để làm những bước đệm cho việc học về Data Science nói chung. Chắc hẳn nếu bạn có bạn bè làm về Data Science (Data Engineer, Data Scientist, ..) thì các cái tên Hadoop, Spark, ... được nhắc lại nhiều lần và bạn có thể giống mình sẽ tự hỏi: Nó là gì? Mình có tìm các k...

Thumbnail Image
903
20
6 0
Avatar Nguyen Mai thg 4 3, 2023 3:02 SA
16 phút đọc

[Paper Explain] Clustering trong Computer Vision: Hướng đi mới thay thế CNN và Transformer?

Tóm tắt Ảnh là gì và làm thế nào để trích xuất features? Convolutional Neural Network (CNN). CNN xem ảnh là các pixel có tổ chức theo dạng hình chữ nhật và thực hiện trích xuất features sử dụng phép Convolution ở một vùng cục bộ. Vision Transformer (ViT). ViT xem ảnh là một chuỗi các patch và thực hiện trích xuất features sử dụng phép Self-Attention ở khoảng cách toàn ảnh.

Và bài này sẽ giới t...

Thumbnail Image
4.1K
8
0 0
Avatar Pham Thi Hong Anh thg 3 30, 2023 6:04 SA
6 phút đọc

Mean, Median, Variance, Standard Deviation với Python

Chào các bạn, như các bạn cũng biết xác suất thống kê khá là quan trọng trong Xử lý dữ liệu (data analysis) cũng như khoa học dữ liệu (data Science) vì nó giúp chúng ta hiểu rõ hơn về dữ liệu mình có. Và mình dạo này khá là rảnh rỗi nên học lại kiến thức xác suất thống kê và đây là bài viết đầu tiên trong chuỗi Series Xác suất thống kê với python . Chúng ta cùng bắt đầu thôi nhé.

Mean, Median...

Thumbnail Image
511
11
2 0
Avatar Pham Thi Hong Anh thg 3 24, 2023 9:05 SA
5 phút đọc

Học Data Analysis bắt đầu từ con số 0

Chào mọi người, dạo gần đây mình có thời gian nên tìm hiểu bài bản vể việc học DA từ đầu nên bắt đầu như thế nào, Vì vậy hôm nay mình cũng viết bài chia sẻ những gì mình đã tìm hiểu trong thời gian vừa qua.

Để trở thành một nhà phân tích dữ liệu thì chúng ta cần học và có những kỹ năng sau:

Kiến thức về Data, Database Muốn phân tích được data thì việc hiểu data là gì rất là quan trọng,Data (...

Thumbnail Image
493
9
1 0
Avatar Trung Đức thg 3 20, 2023 3:58 SA
12 phút đọc

Data Analytics cho người mới bắt đầu như mình (Part cuối cho Beginners)

Kết thúc khóa học Data analytics cho người mới bắt đầu, bài viết này của mình sẽ bao gồm 2 nội dung chính: Phương pháp luận trong Data Science và Data Analytics trong các lĩnh vực khác nhau sẽ có hiệu quả thế nào. Cùng mình trao đổi nhé Data Science methodology Phương pháp luận trong Data Science là phương pháp khoa học dữ liệu để thúc đẩy những thông tin, hiểu biết có ý nghĩa hơn. Bản chất thì...

Thumbnail Image
4.6K
74
11 10
Avatar Phạm Văn Toàn thg 3 17, 2023 4:46 SA
20 phút đọc

Trải lòng sau khi đọc GPT-4 Technical Report của OpenAI - các bác nên đổi tên công ty đi

Sự háo hức chờ đón GPT-4

Có lẽ chưa một năm nào mà chứng kiến sự vươn lên ngoạn mục của AI trong lòng công chúng như năm nay. Không thể phủ nhận rằng OpenAI đã làm quá tốt trong việc đưa AI đến với mọi người, mọi nhà. Đâu đâu cũng nghe về ChatGPT, về Midjourney, blah blah... Và cũng không để cho dân tình phải chờ đợi lâu thì ngày 14/3/2023, phiên bản nâng cấp thực sự của GPT-3 đã được công bố ...

Thumbnail Image
745
6
2 0
Avatar Trung Đức thg 3 16, 2023 6:31 SA
11 phút đọc

Data Analytics cho người mới bắt đầu như mình (Part 2)

Tiếp nối trong phần đầu tiên về các khái niệm cơ bản của Data Analytics, trong phần này, mình sẽ tập trung về các kiểu dữ liệu, levels của dữ liệu và tổng quan trực quan hóa dữ liệu, mỗi kiểu trực quan sẽ phù hợp với từng kiểu dữ liệu và mục đích khác nhau. Mời các bạn đọc cùng trao đổi nhé Một số thuật ngữ, thông số trong thống kê và Data Analytics Trước hết mình sẽ điểm qua một vài từ khóa cơ...

Thành viên nổi bật
Viblo
Hãy đăng ký một tài khoản Viblo để nhận được nhiều bài viết thú vị hơn.
Đăng kí