Рубрики
Uncategorized

Сжатие данных, написанных Программистам зимой Интернета

Автор оригинала: David Wong.

Первоначальный адрес: http://blog.52sox.com/data-co…

Онлайн-шутка 2018 – это зима Интернета. Во-первых, Али, Tencent и Huawei не расширяют свою численность, чтобы оптимизировать свой персонал, а затем есть Корпус Соединенных Штатов, который знает, как увольнять персонал, поэтому они оживлены. Следует сказать, что экономика Китая вступила в новый этап. С официальной точки зрения, это новая экология. По словам людей, мы попрощались с обширными пастбищами и открыли эру интенсивного земледелия. Когда мы были в ужасе от зимы в Интернете, перед нами был краткий отчет о повышении заработной платы на фабрике г-жи Донг. Но на этот раз это другая компания.

Слушать тебя полдня только для того, чтобы рассказать мне эти грустные вещи? Если это то, что вы думаете внутри, то вы можете закрыть вкладку на своем веб-сайте.

Подходит для читателей

Следующее содержимое подходит для следующих групп:

  • Белый программист, независимо от языка программирования
  • Программисты готовятся к смене работы через год
  • Инженер по разработке данных
  • Инженер по алгоритмам обработки данных
  • Студенты колледжа, специализирующиеся в области математики и прикладной математики
  • Кто – то, кому нравится носить X

Как специалист по обработке данных, который уже вошел в яму, он может рассказать о сжатии данных только из своего собственного опыта и маршрута разработки. Теперь мы готовы приступить к посадке.

Вступление

За последние 10 лет мы стали свидетелями изменений в том, как мы общаемся, и этот процесс продолжается. Это изменение включает в себя не только непрерывный рост масштабов Интернета (скачок пропускной способности с 2 м до 100 М), но и взрывное развитие мобильной связи (с 2G до 4G и предстоящего коммерческого 5G), а также растущее значение видеосвязи. Во всех этих областях этой революции сжатие данных является одной из основных вспомогательных технологий. В 2013 году Hadoop впервые применила концепцию больших данных. В 2016 году мы находимся в первом году больших данных. А 2017 год ознаменовался первым годом ИИ. По мере того как технологии и инструменты продолжают развиваться, мы также стареем. Затем вы можете задать следующие вопросы:

  • Зачем вам нужно сжатие данных?
  • Каковы преимущества знания о сжатии данных?
  • Я не работаю над этой частью. Расскажи мне об этом. Разве ты не тратишь мое время впустую?

Чтобы ответить на такие вопросы, нам необходимо сказать, что такое сжатие данных, прежде чем отвечать на эти вопросы.

Что такое Сжатие данных

Короче говоря, сжатие данных-это технология или наука, которая компактно представляет информацию. Структурные особенности в данных идентифицируются и используются для создания этих компактных представлений. Изложив концепцию сжатия данных, мы вернемся к предыдущим проблемам и объясним их отдельно.

Почему Необходимо Сжатие Данных

Сжатие данных необходимо, поскольку все больше и больше информации генерируется и используется в цифровой форме. В эпоху больших данных мы можем сказать, что нас окружает огромное количество информации. Например, введите поиск смарт-браслета в Baidu, и на следующий день вы найдете рекламу различных смарт-браслетов. Конечно, эти точные рекламные кампании не оправдали наших ожиданий, по крайней мере, пока недостаточно умные. В связи со взрывным ростом объема данных, которые необходимо передавать и хранить, люди добились большого прогресса в разработке более совершенных технологий передачи и хранения, но результатов недостаточно. Существует также множество уровней связанных технологий, таких как инструменты Hadoop для обработки больших данных и ссылки на Hadoop и его экосистему. Согласно первому правилу Паркинсона, спрос на емкость для хранения и передачи данных большой емкости растет по крайней мере в два раза быстрее, чем на емкость для хранения и передачи данных. В некоторых случаях емкость хранилища и

Понимание преимуществ сжатия данных

Говоря о сжатии данных средь бела дня, вы не сказали нам, что на самом деле стоит знать или изучать о сжатии данных. Изучение сжатия данных не обязательно позволит вам получить высокую зарплату или найти новую должность, но это может дать вам определенную основу для мышления о данных. По крайней мере, они будут знать, как применить это на практике и выбрать правильное решение. Имейте в виду, что сжатие данных-это только основы, так называемая основа заключается в том, что без нее ваша надстройка не может быть построена.

Защита от мысли о пустой трате времени

В этот момент кто-нибудь скажет: “Вы действительно тратите мое время впустую”. Моя работа не связана с этой частью. Почему ты придираешься ко мне по этому поводу? Если вы так думаете, спросите себя, не слушаете ли вы обычно музыку или не смотрите фильмы, которые тесно связаны со стандартами JPEG, MP3 и H. 264.

Сжатие данных действительно имеет значение.

Обучение сжатию данных-это всего лишь один из вариантов расширения вашей технологии, например, выбор правильного решения для решения инженерных задач. Конечно, если вы достаточно сильны, чтобы разработать разумную схему сжатия данных, вы также можете начать свой собственный бизнес.

Зимой Интернета технологическая компания недавно завершила финансирование на десятки миллионов долларов. Если вы что-то знаете о области обработки изображений, вы обнаружите, что на самом деле это режим AI + DSP, что не имеет большого значения. Конечно, это дело другой компании, что делать. Сказав так много, если вы считаете, что вам не на что смотреть, вы можете закрыть вкладку напрямую. Если нет, мы продолжим.

Способ сжатия данных

В первые дни сжатия данных типичным примером является использование кода Морзе, который кодирует символы, отправленные телеграммами, точками и тире. Статистика показывает, что некоторые символы появляются чаще, чем другие, поэтому для символов с более высокой частотой выделяются более короткие последовательности, что сокращает среднее время, необходимое для отправки сообщения. Среди них кодирование Хаффмана-это использование идей. Сжатие может быть достигнуто с помощью множества различных типов структур, а не только путем подсчета их структур. В различных типах данных существует множество других типов структур, которые можно использовать для технологии сжатия. Например, в речи, когда мы говорим, физическая структура гортани определяет, какой звук мы можем издавать. Другими словами, механические особенности, которые создают речь, придают речи определенную структуру. Поэтому вместо прямой передачи самого голоса мы можем передавать соответствующую информацию о структуре горла, которая используется приемником для

Что такое технология сжатия?

Для сжатия данных нам сначала нужно разработать соответствующие алгоритмы и схемы. Технология сжатия или алгоритм сжатия на самом деле относится к следующим двум алгоритмам:

  • Алгоритм сжатия, получить входные данные X, сгенерировать представление Xc с меньшим количеством двоичных
  • Алгоритм реконфигурации, который выполняет операции над сжатым представлением Xc и генерирует результат реконфигурации, который вы

Принципиальная схема этих операций выглядит следующим образом:

Следуя соглашению, мы объединяем алгоритм сжатия с алгоритмом реконструкции, который называется алгоритмом сжатия. В соответствии с требованиями к реконструкции мы можем разделить сжатие данных на две категории:

  • Сжатие без потерь, результаты восстановления y и X одинаковы
  • Сжатие с потерями, коэффициент сжатия обычно выше, чем сжатие без потерь, но восстановленный результат y может отличаться от X.

сжатие без потерь

В технологии сжатия без потерь потеря информации не допускается. Эта технология обычно используется в приложениях, которые не допускают никакой разницы между исходными данными и восстановленными данными, в которых типичным является сжатие текста. При сжатии текста, если сжатый текст не соответствует исходному тексту, это может привести к семантическим ошибкам.

Сжатие с потерями

Технология сжатия с потерями приведет к некоторой потере информации. Данные, сжатые с помощью этой технологии, не могут быть точно восстановлены или восстановлены. Однако, если искажение в восстановленных результатах может быть принято, степень сжатия, достигаемая этим методом, намного выше, чем при сжатии без потерь. После разработки схемы сжатия данных мы должны иметь возможность измерить ее производительность. Сжатие данных имеет множество применений, поэтому термины, используемые для описания и измерения производительности сжатия, также различаются.

Измерение производительности

Мы можем оценить алгоритм сжатия многими способами. Мы можем измерить это по следующим аспектам:

  • Относительная сложность алгоритма
  • Скорость работы алгоритма на данном компьютере
  • Количество сжатия
  • Сходство между восстановленными результатами и исходными данными

Обычно используемыми индикаторами являются:

  • Степень сжатия
  • ставка

Моделирование и кодирование

Требование к восстановленным результатам может непосредственно определять, следует ли использовать схему сжатия с потерями или без потерь, но для принятия решения о том, какую схему сжатия использовать, может потребоваться множество различных факторов. Одним из наиболее важных факторов являются характеристики данных, подлежащих сжатию. Например, технология, которая может эффективно сжимать текст, может не одинаково эффективно сжимать изображение. Чтобы разработать алгоритмы сжатия данных для конкретных данных, мы можем разделить их на два этапа:

  • моделирование
  • Код

На первом этапе мы обычно называем это моделированием. Мы пытаемся понять избыточность данных и используем модель для описания избыточности. На втором этапе мы описываем модель путем кодирования, описывая разницу между данными и моделью. Разницу между данными и моделями часто называют остаточной. Например, в предыдущем коде Морзе мы впервые узнали статистическим путем, что частота одного символа выше, чем у других символов, что является процессом моделирования. Использование более коротких последовательностей, выделенных для более высокочастотных символов, является методом кодирования.

эпилог

При сжатии данных у нас есть много различных методов для описания характеристик данных, и различные методы описания функций могут получить различные схемы сжатия.

Справочники:

《Введение в сжатие данных,Четвертое издание》P1-8