[Чтение файла] Что делать, если файл слишком большой?
[Чтение файла] Что делать, если файл слишком большой?

Следуйте за нами и учитесь вместе~

Мы часто сталкиваемся с ситуациями, когда нам необходимо прочитать большие файлы, например, более десяти ГБ, десятки ГБ или даже больше. Если мы читаем их напрямую, память может взорваться и переполниться. Автор недавно столкнулся с ситуацией чтения больших файлов, поэтому хотелось бы поделиться с вами некоторыми способами чтения больших файлов.

open

Читать построчно и выполнять соответствующие операции построчно.

Язык кода:javascript
копировать
freader = open(filename, 'rb')
while True:
    try:
        line = freader.readline()
        # do some work
    except StopIteration:
        break

pandas

Читать частями

Язык кода:javascript
копировать
import pandas as pd

reader = pd.read_csv(filename, iterator=True)
# Каждый раз, когда считывается блок определенного размера, возвращается кадр данных.
data = reader.get_chunk(size)

Изменить тип столбца

Измените тип каждого столбца, чтобы уменьшить объем хранилища.

  • Для меток или столбцов с небольшим количеством типов (например, пол, 0, 1, 2) значением по умолчанию является int64, а тип столбца можно преобразовать в int8.
  • Для чисел с плавающей запятой по умолчанию используется float64, который можно преобразовать в float32.
  • Категориальные столбцы, такие как идентификаторы продуктов, можно закодировать как категорию.
Язык кода:javascript
копировать
import pandas as pd

reader = pd.read_csv(filename, iterator=True)
data = reader.get_chunk(size)
# downcast используется для изменения типа,
# Ошибки относятся к операции, которую необходимо выполнить, если преобразование невозможно выполнить или возникла ошибка.
# Вы можете использовать повышение (сообщение об ошибках), игнорировать (игнорировать), принуждение преобразуется в NaN
data[column_name1] = pd.to_numeric(data[column_name], downcast='unsigned', errors='coerce')
data[column_name2] = pd.to_numeric(data[column_name], downcast='float', errors='coerce')
data[column_name3] = data[column_name3].astype('category')

пример

Язык кода:javascript
копировать
reader = pd.read_csv('./cygg/train_data.txt', iterator=True, header=None)

arr = []
for i in range(10):
    data = reader.get_chunk(100000)
    data.columns = [str(i) for i in range(246)]
    arr.append(data)
data = pd.concat(arr)
# Рассчитать размер необработанных данных в ГБ
print(data.memory_usage().sum()/(1024**3))
# Преобразовать int64 метки в int8
data['0'] = pd.to_numeric(data['0'], downcast='unsigned', errors='coerce')
# Рассчитать размер преобразованных данных в ГБ
print(data.memory_usage().sum()/(1024**3))
# Преобразовать float64 в float32
for i in range(6, 246):
    data[str(i)] = pd.to_numeric(data[str(i)], downcast='float', errors='coerce')
# Рассчитать конвертированный размер в ГБ
print(data.memory_usage().sum()/(1024**3))
# Преобразование категориальных переменных в тип категории
for i in range(1, 6):
    data[str(i)] = data[str(i)].astype('category')
print(data.memory_usage().sum()/(1024**3))

Исходный размер: 1,8328 ГБ, после преобразования в int8: 1,8263 ГБ, после преобразования в float32: 0,9323 ГБ, после преобразования в категорию: 0,9037 ГБ. Можно обнаружить, что после изменения типа потребление памяти значительно снижается.

ссылка

https://zhuanlan.zhihu.com/p/34420427

boy illustration
Учебное пособие по Jetpack Compose для начинающих, базовые элементы управления и макет
boy illustration
Код js веб-страницы, фон частицы, код спецэффектов
boy illustration
【новый! Суперподробное】Полное руководство по свойствам компонентов Figma.
boy illustration
🎉Обязательно к прочтению новичкам: полное руководство по написанию мини-программ WeChat с использованием программного обеспечения Cursor.
boy illustration
[Забавный проект Docker] VoceChat — еще одно приложение для мгновенного чата (IM)! Может быть встроен в любую веб-страницу!
boy illustration
Как реализовать переход по странице в HTML (html переходит на указанную страницу)
boy illustration
Как решить проблему зависания и низкой скорости при установке зависимостей с помощью npm. Существуют ли доступные источники npm, которые могут решить эту проблему?
boy illustration
Серия From Zero to Fun: Uni-App WeChat Payment Practice WeChat авторизует вход в систему и украшает страницу заказа, создает интерфейс заказа и инициирует запрос заказа
boy illustration
Серия uni-app: uni.navigateЧтобы передать скачок значения
boy illustration
Апплет WeChat настраивает верхнюю панель навигации и адаптируется к различным моделям.
boy illustration
JS-время конвертации
boy illustration
Обеспечьте бесперебойную работу ChromeDriver 125: советы по решению проблемы chromedriver.exe не найдены
boy illustration
Поле комментария, щелчок мышью, специальные эффекты, js-код
boy illustration
Объект массива перемещения объекта JS
boy illustration
Как открыть разрешение на позиционирование апплета WeChat_Как использовать WeChat для определения местонахождения друзей
boy illustration
Я даю вам два набора из 18 простых в использовании фонов холста Power BI, так что вам больше не придется возиться с цветами!
boy illustration
Получить текущее время в js_Как динамически отображать дату и время в js
boy illustration
Вам необходимо изучить сочетания клавиш vsCode для форматирования и организации кода, чтобы вам больше не приходилось настраивать формат вручную.
boy illustration
У ChatGPT большое обновление. Всего за 45 минут пресс-конференция показывает, что OpenAI сделал еще один шаг вперед.
boy illustration
Copilot облачной разработки — упрощение разработки
boy illustration
Микросборка xChatGPT с низким кодом, создание апплета чат-бота с искусственным интеллектом за пять шагов
boy illustration
CUDA Out of Memory: идеальное решение проблемы нехватки памяти CUDA
boy illustration
Анализ кластеризации отдельных ячеек, который должен освоить каждый&MarkerгенетическийВизуализация
boy illustration
vLLM: мощный инструмент для ускорения вывода ИИ
boy illustration
CodeGeeX: мощный инструмент генерации кода искусственного интеллекта, который можно использовать бесплатно в дополнение к второму пилоту.
boy illustration
Машинное обучение Реальный бой LightGBM + настройка параметров случайного поиска: точность 96,67%
boy illustration
Бесшовная интеграция, мгновенный интеллект [1]: платформа больших моделей Dify-LLM, интеграция без кодирования и встраивание в сторонние системы, более 42 тысяч звезд, чтобы стать свидетелями эксклюзивных интеллектуальных решений.
boy illustration
LM Studio для создания локальных больших моделей
boy illustration
Как определить количество слоев и нейронов скрытых слоев нейронной сети?
boy illustration
[Отслеживание целей] Подробное объяснение ByteTrack и детали кода